Aunque, obviamente, la prioridad en estos tiempos de pandemia es la curación de los enfermos, la prevención de nuevos contagios y las medidas económicas y sociales para ayudar a las personas y empresas más desfavorecidas a superar esta situación, sin duda, en un futuro no muy lejano, el análisis de los contenidos generados por medios de comunicación y usuarios en redes sociales en torno al coronavirus será objeto de investigación en multitud de disciplinas como la sociología, la filología, la lingüística, la comunicación audiovisual, la política, etc.
En MeaningCloud queremos hacer una pequeña aportación en esta área, aplicando nuestra experiencia y nuestras soluciones de Text Analytics para analizar este ingente volumen de información en lenguaje natural, en español y en otros idiomas, en España y en otros países, puesto que, desgraciadamente, este es un problema global.
Este primer artículo de la serie se centra en el análisis temático de los contenidos generados en español por medios de comunicación digitales de España en el último mes, cómo han evolucionado en este tiempo y el posicionamiento informativo de los principales medios en España.
Los siguientes artículos analizan los temas de conversación en Twitter en España (tanto desde una perspectiva de hashtags y temas generales como aplicando una clasificación temática específica del coronavirus) y el análisis lingüístico de los discursos del presidente del Gobierno relacionados con la crisis.
Corpus de análisis
Este análisis se centra en las noticias publicadas por los principales medios de comunicación con presencia digital en España, de ámbito estatal, desde el martes 3 de marzo de 2020 al lunes 13 de abril de 2020, en total 42 días.
Para descargar los contenidos hemos utilizado los servicios de uno de nuestros partners tecnológicos, Webhose.io, un proveedor de contenidos líder mundial para medios de comunicación, blogs, foros de discusión, reviews y contenidos en la Dark web, que amablemente ha aportado las noticias publicadas en el periodo de estudio.
Como siempre hay discrepancias en las mediciones de la difusión/popularidad/audiencia (y sin ánimo de participar en la discusión), hemos recopilado un listado de los 30 medios más importantes según coincidencias entre la OJD, el EGM, Prensa Digital, Toda la Prensa y TNRelaciones:
europapress.es, elespanol.com, abc.es, elmundo.es, lavanguardia.com, lavozdegalicia.es, elpais.com, publico.es, eldiario.es, okdiario.com, elplural.com, elboletin.com, estrelladigital.es, libertaddigital.com, huffingtonpost.es, periodistadigital.com, republica.com, mundiario.com, lainformacion.com, larazon.es, madridiario.es, elconfidencialdigital.com, diariocritico.com, elindependiente.com, que.es, elconfidencial.com, infolibre.es, elsaltodiario.com, vozlibre.com, vozpopuli.com
En total hemos obtenido 113 263 noticias para los 42 días, una media de 2 697 noticias al día, con la distribución de número de noticias por día que se muestra en la figura siguiente, donde se ve que sigue el típico patrón de día de diario vs fin de semana.
La siguiente figura muestra el número de noticias obtenido para cada medio de comunicación. El medio más prolífico es Europa Press, seguido de El Español y ABC, y a mucha distancia, los demás.
Análisis temático con modelos estándar IAB e IPTC
A continuación, hemos utilizado nuestros motores de categorización (clasificación) automática de texto para realizar un análisis temático de los titulares de las noticias. Aunque disponemos del texto completo de las noticias, para los propósitos de este análisis nos sirve quedarnos sólo con los titulares. En MeaningCloud ofrecemos dos APIs de categorización de texto (Text Classification y Deep Categorization), con diferente funcionalidad para construcción de modelos, que ofrecen dos modelos públicos útiles para la categorización temática de noticias:
- el modelo IAB (Interactive Advertising Bureau) Tech Lab Content Taxonomy, muy utilizado para clasificación de contenidos en el mercado publicitario, que en versión 2.0 (nuestra implementación) tiene 370 categorías en 2 niveles.
- el modelo IPTC (International Press Telecommunications Council) para categorización de noticias, con 1388 categorías en 3 niveles (taxonomía Subject Codes).
Modelo IAB
Como la tecnología no es exacta, únicamente 76 318 noticias reciben una categorización temática, un 68 % del total, que está muy bien teniendo en cuenta que es un modelo genérico, de propósito general, no entrenado expresamente para este dominio, que se utilizan sólo los titulares de las noticias, y que IAB no tiene un 100 % de la cobertura temática de las noticias.
La figura siguiente muestra la distribución temática global de todas las noticias generadas en el periodo de estudio, empleando el modelo IAB. Se puede observar que, con este modelo generalista, las categorías más frecuentes son Salud médica (32 446 noticias, 43 % del total), Noticias y política>Política (19 042 noticias, 25 % del total) y Deportes>Fútbol (6 % del total), que concuerda con la percepción de la sociedad. La gráfica muestra una distribución de long tail típica, con categorías muy poco frecuentes al final de la gráfica.
La evolución en el tiempo de las categorías IAB más frecuentes se presenta en la figura siguiente. En los primeros días del mes de marzo, previos al confinamiento en toda España, la temática era más variada, pero en seguida el tema principalmente tratado por los medios se convirtió en salud y política/economía.
Modelo IPTC
En este caso, 82 793 noticias reciben una categorización temática, un 73 % del total, incluso mejor que en el caso de IAB.
De forma análoga, la siguiente figura muestra la distribución temática global de todas las noticias empleando el modelo IPTC. En este caso, las categorías están más distribuidas, al tener IPTC un número mucho mayor de categorías que IAB, siendo las categorías más frecuentes Política – Gobierno (5.0 % del total), Deporte – Fútbol (4.7 % del total) y Economía, negocios y Finanzas – Economía (general) (4.5% del total), que se solapan temáticamente de forma bastante aproximada con IAB.
La siguiente figura muestra la evolución en el tiempo de las categorías IPTC más frecuentes. Es bastante visible que el tema inicialmente fue la cancelación de partidos de Liga (deportes), luego pasando a temas de salud, economía y política.
Análisis temático con modelo específico COVID-19
Aunque los anteriores modelos generalistas aportan información muy valiosa de los temas tratados en los medios de comunicación, nuestras soluciones de personalización nos permiten definir en relativamente poco tiempo y con esfuerzo reducido modelos de categorización específicos, que resultan de mayor interés para realizar análisis más centrados en un cierto dominio.
Categorías del modelo COVID-19
Para este análisis hemos desarrollado el modelo COVID-19 con las siguientes 78 categorías, todas relacionadas con el contexto de la pandemia del coronavirus:
- Deporte
- Ejercicio Físico
- Eventos Deportivos
- Economía
- Acciones Económicas
- Medidas Sociales
- Bolsa
- Desempleo
- Deuda
- Empresas
- Autónomos
- Impacto Económico
- Petróleo
- Prima de Riesgo
- Suministros
- Alimentación
- Gas/Luz/Electricidad
- Turismo
- Medioambiente
- ImpactoAmbiental
- Política
- Acciones Legislativas
- Apoyo Político
- Cierre/Clausura/Cancelación
- Cancelación de Elecciones
- Cancelación de Eventos
- Cierre de Colegios
- Cierre de Empresas
- Cierre de Fronteras
- Cierre de Medios de Transporte
- Confinamiento
- Ejército
- Salud
- Aprovisionamiento
- EPI
- Mascarillas
- Medicamentos
- Respiradores
- Desbordamiento
- Desbordamiento de Funerarias
- Desbordamiento de Sanidad
- Efectos Psicológicos
- Ludopatía
- Evolución de Afectados
- Aplanamiento
- Pico
- Recuperación
- Farmacias
- Información
- Investigacion
- OMS
- MedidasApoyo
- Ampliación Plantilla
- Residencias
- Sociedad
- Acciones Culturales
- Acciones Sociales
- Alimentación
- Autistas
- Bulos
- Convivencia Vecinal
- Delincuencia
- Denuncias/Infracciones
- Denuncias a Funerarias
- Donaciones
- Educación
- Eventos Culturales
- Mascotas
- Niños
- Ocio
- Reconocimientos
- Teletrabajo
- Valores
- Violencia de Género
- Tecnología
- App
- Telecomunicaciones
- Otros temas
Cuando la noticia no tiene que ver con la COVID-19, queda sin recibir ninguna etiqueta.
El entrenamiento de los modelos es un proceso iterativo, basado en una sucesión de etapas de 1) etiquetado manual (etiquetado del gold standard), 2) desarrollo de reglas, 3) evaluación de la precisión, 4) ampliación del gold standard con el modelo, y vuelta a empezar en el 2), hasta llegar a un nivel objetivo de precisión. Pues bien, el modelo desarrollado obtiene una precisión del 78 % de las etiquetas (label-based accuracy, ver descripción en Performance Metrics for Text Categorization).
Distribución y evolución temática
En este caso, 61 156 noticias se etiquetan como relativas al COVID-19, es decir, reciben al menos una etiqueta de las del modelo, el 54 % del total.
La figura siguiente muestra la distribución temática global de todas las noticias en el periodo de estudio, empleando este modelo COVID-19. Se puede observar que, con este modelo específico, las categorías más frecuentes, aparte de Otros, son Salud>Evolución de Afectados, Política>Confinamiento y Salud (en general).
La evolución en el tiempo de las categorías más frecuentes se presenta en la figura siguiente.
Por ejemplo, si el análisis se centra en tres categorías concretas, se puede ver (en la siguiente figura) que:
- el desempleo (la subida del paro, etc.) ha sido una gran preocupación de todo este periodo, con un máximo el día 2 de abril, aunque parece que está bajando.
- la preocupación por el desabastecimiento de mascarillas, aunque ha salido bastante constante también durante este último mes, ha aumentado a raíz de las noticias sobre el inicio de la “desescalada” y el posible fin del confinamiento.
- las noticias sobre donaciones fueron frecuentes en las semanas centrales del 23 y 30 de marzo, habiendo perdido interés por parte de los medios de comunicación.
Posicionamiento de cada medio
Por último, otro análisis posible es estudiar el posicionamiento de cada medio. La figura siguiente muestra la distribución relativa (en porcentaje) de cada tema en cada medio respecto al total de noticias publicadas por el medio. Se pueden obtener conclusiones sobre la línea editorial de cada medio, si se incide más en aspectos de carácter social, económico, político, o en otros temas.
Para facilitar la comparación, la siguiente figura presenta un diagrama de radar de 12 de los principales medios, eliminando la categoría Otros. Por ejemplo, el énfasis de El País es en la economía, eldiario.es se centra más en aspectos de salud (la evolución de los afectados, la situación en las residencias de ancianos), La Razón publicó muchas noticias sobre deporte, y La Vanguardia se centra principalmente en aspectos políticos del confinamiento.
Conclusiones
Las tecnologías de análisis de texto permiten realizar investigaciones sociales sobre los contenidos publicados por medios de comunicación, que puede resultar de interés en diferentes líneas de estudio, automatizando el análisis del gran volumen de información disponible.
En futuros posts ampliaremos el estudio sobre este corpus y presentaremos otros análisis realizados sobre otros corpus de redes sociales, en particular Twitter, en España y en otros países.
¿Quieres conocer más detalles sobre cómo se elaboró este estudio o acceder a los datos que nos sirvieron de materia prima? Contáctanos en support@meaningcloud.com.