Este es el segundo artículo (ver el primero aquí) de la serie sobre análisis de contenidos generados por medios de comunicación y usuarios en redes sociales en torno al coronavirus, aplicando nuestra experiencia y nuestras soluciones de Text Analytics para analizar el ingente volumen de información en lenguaje natural.
En este caso nos centramos en intentar analizar, en la medida de lo posible, el interés temático en Twitter en cada región de España, específicamente realizando un análisis por Comunidad Autónoma, en los últimos 10 días.
Corpus de análisis
Como fuente del análisis, empezamos a recoger, utilizando la API de streaming de Twitter, todos los tweets (los que pueda entregar la API, con los límites que establece la propia API) geolocalizados en España.
Para ello usamos las bounding boxes que se muestran en la siguiente figura, en concreto, usando la notación de Twitter, donde cada bounding box es rectangular y está representada por las coordenadas en (longitud, latitud) de sus esquinas suroeste y noreste: [-9.83,35.16,4.58,43.82]
para la península, Baleares, Ceuta y Melilla, y [-18.74,27.56,-13.30,29.51]
para Canarias.
Twitter utiliza una serie de heurísticos para determinar la geolocalización de un tweet. El caso más sencillo es cuando el usuario de Twitter tiene habilitada su geolocalización GPS, con lo que directamente se utilizan sus coordenadas de posición. Si las coordenadas están vacías pero el campo place, que es un campo que se puede definir voluntariamente en el perfil del usuario, tiene algún valor, se toma como posición del tweet la ubicación de dicho lugar, si se puede determinar, si el usuario ha configurado un lugar real conocido. En otro caso, el tweet no recibe ninguna información de geolocalización.
Por lo tanto, en realidad no tenemos todos los tweets de España, sino sólo una muestra, aquellos tweets que están geolocalizados dentro de estas bounding boxes. Buscando en Google algo como geolocated tweets percentage
aparecen diferentes estimaciones respecto al porcentaje respecto al total. Según nuestra experiencia, en experimentos que hemos realizado en diferentes proyectos, el porcentaje de tweets geolocalizados en España está en torno al 2-5 %. Por ejemplo, recientemente hemos analizado durante tres días tweets mencionando partidos políticos españoles: el 3.2 % de ellos estaba geolocalizado.
Por otra parte, Twitter entrega la ubicación como coordenadas GPS y/o como nombre de la ubicación, habitualmente a nivel de municipio, por ejemplo, Torrevieja, España. Como en este análisis queremos analizar de forma agregada por comunidades autónomas (en futuros análisis bajaremos a nivel de provincia), tenemos que obtener la comunidad autónoma correspondiente a la ubicación del tweet. Para ello el Instituto Nacional de Estadística (INE) nos lo pone muy fácil (a diferencia de otros países), con la lista completa de todos los municipios españoles, por provincias y comunidades autónomas. Por tanto, sólo hay que cruzar el nombre del lugar que entrega Twitter con esta lista, con alguna que otra adaptación: mismo topónimo en español, gallego, euskera o catalán (<i>València, Espanya</i> vs <i>Valencia, España</i>), diferentes grafías con o sin guión, etc.
Los tweets para los que no se pueda obtener su comunidad autónoma, serán desechados. Además, las definiciones rectangulares de las bounding boxes cubren Portugal, el sur de Francia y el norte de Marruecos, tweets que también hay que eliminar del análisis.
Este análisis se va a centrar en los tweets recogidos del jueves 2 de abril de 2020 al sábado 11 de abril de 2020, ambos incluidos. En total, la API de Twitter ha entregado en ese periodo un total 1 467 774 tweets contenidos en esas bounding boxes. Tras el cruce por comunidad autónoma, quedan 1 153 471 tweets, asignados a una de las 17 comunidades españolas. El volumen de tweets para Ceuta y Melilla es tan bajo que tenemos que dejarlos de momento fuera del análisis.
La distribución por días se muestra en la figura siguiente. Es muy homogéneo por días, sin observarse el efecto día laborable vs fin de semana, lógicamente debido al confinamiento y cierre de negocios y al periodo de Semana Santa.
Análisis a nivel nacional
Los hashtags se han agrupado considerando variantes con diferente capitalización (#JuevesSanto es igual a #juevessanto), uso de caracteres acentuados o no (#sábado es igual que #sabado) y empleo de guiones, puntos u otros signos de puntuación (#COVID-19 es igual que #COVID19).
En total se han utilizado 80 305 hashtags diferentes. La figura siguiente muestra los hashtags más frecuentes, que se refieren, lógicamente, a la pandemia (#COVID-19, #coronavirus) y al confinamiento en los domicilios (#YoMeQuedoEnCasa, #QuedateEnCasa, #JoEmQuedoACasa). Dado el periodo de tiempo del análisis, aparecen hashtags relacionados con la Semana Santa y con la serie de “La casa de papel”, aparte de hashtags relacionados con la política.
Análogamente, se han recogido un total de 278139 menciones a usuarios de Twitter. La figura siguiente muestra las menciones más frecuentes a nivel nacional. En este caso, la política es la ganadora, con el presidente Pedro Sánchez (@sanchezcastejon) como el usuario más mencionado, seguido por la cuenta del PSOE (@PSOE) y la del líder de la oposición, Pablo Casado (@pablocasado_).
Por último, hay 9 181 URLs de sitios web incluidas en los tweets. La figura siguiente muestra las URLs más frecuentes. Se puede ver claramente el uso destacado de vídeos de YouTube, seguido de menciones (retweets, respuestas) a otros tweets, listas y canciones de Spotify, y luego las URLs de medios de comunicación, con El País, ABC, eldiario.es, El Mundo y Ok Diario como los 5 más populares.
Análisis por comunidad autónoma
Los datos de tweets y hashtags, menciones y URLs totales y únicos, por comunidad autónomas se presentan en la siguiente tabla. Se puede observar que la Comunidad de Madrid, Andalucía, Cataluña y la Comunidad Valenciana suman 768 510 tweets, un 67 % del total, que resulta lógico puesto que estas comunidades suman 27 606 684 habitantes, el 60 % del total de España (ver Comunidades y ciudades autónomas de España).
Comunidad Autónoma | Tweets | Hashtags | Hashtags únicos | Menciones | Menciones únicas | URLs | URLs únicas |
---|---|---|---|---|---|---|---|
Madrid, Comunidad de | 239619 | 69774 | 20891 | 259634 | 76252 | 16920 | 2626 |
Andalucía | 226378 | 65400 | 18175 | 238723 | 68000 | 12110 | 1761 |
Cataluña | 203529 | 75876 | 23052 | 252009 | 67486 | 14780 | 2637 |
Comunitat Valenciana | 98984 | 28169 | 10236 | 108057 | 36861 | 6203 | 1232 |
Galicia | 54628 | 15893 | 5476 | 56340 | 18985 | 3294 | 705 |
Castilla y León | 46088 | 15797 | 5175 | 47732 | 18520 | 4519 | 653 |
Canarias | 45567 | 13293 | 5125 | 47287 | 17616 | 2138 | 507 |
País Vasco | 37333 | 11953 | 3907 | 56904 | 14807 | 2933 | 586 |
Balears, Illes | 34449 | 10155 | 4317 | 33994 | 12844 | 2195 | 568 |
Castilla-La Mancha | 32562 | 12470 | 4265 | 30171 | 12719 | 2319 | 522 |
Murcia, Región de | 28623 | 8109 | 3104 | 31694 | 11572 | 2047 | 481 |
Asturias, Principado de | 28533 | 7926 | 3101 | 29064 | 10508 | 1690 | 411 |
Aragón | 26120 | 6806 | 2752 | 25168 | 10261 | 1554 | 378 |
Extremadura | 22592 | 6492 | 1988 | 25734 | 8723 | 1748 | 294 |
Cantabria | 14693 | 3951 | 1625 | 15123 | 6693 | 946 | 266 |
Navarra, Comunidad Foral de | 7138 | 2194 | 1096 | 9219 | 4053 | 636 | 170 |
Rioja, La | 6635 | 2565 | 858 | 7272 | 3069 | 673 | 182 |
En los siguientes apartados se muestra el análisis específico por cada una de las cuatro comunidades más pobladas, y al final, un resumen del resto.
Comunidad de Madrid
Los hashags más frecuentes en la Comunidad de Madrid se muestran en la figura siguiente. Aparecen los mismos que a nivel nacional, pero destaca que los hashtags de carácter político son mayoritariamente en contra del gobierno: #GobiernoDimisión, #GobiernoCriminal, #LaPesteRoja, #GobiernoDimisiónYa, etc. El primer hashtag relacionado con la Semana Santa aparecen en la posición 18, demostrando quizás un interés reducido por este tema en esta comunidad.
Respecto a menciones a usuarios, la figura siguiente muestra las menciones más populares en la Comunidad de Madrid. El presidente Pedro Sánchez y la Presidenta de la Comunidad de Madrid, Isabel Díaz Ayuso (@IDiazAyuso) son los más mencionados.
Andalucía
La figura muestra los hashtags más frecuentes en Andalucía. Coinciden temáticamente con los más frecuentes a nivel nacional, pero los referentes a la Semana Santa (#SemanaSanta, #SemanaSanta2020, #SemanaSantaEnCasa, #SSantaSevilla20, #CofradíasMlg, #DomingoDeRamos, #LunesSanto, #MartesSanto…), con el primero en 5ª posición, son más populares que en otras comunidades, probablemente por el interés en Andalucía. En total, de los 30 hashtags más frecuentes, se usan 7 314 veces los relacionados con COVID-19 y confinamiento, y 3569 veces los relativos a la Semana Santa, que sería sin duda el segundo tema de mayor interés en Twitter.
La siguiente figura muestra las menciones más frecuentes a usuarios en Andalucía. En este caso no aparecen apenas menciones a la política regional.
Cataluña
La siguiente figura muestra los hashtags más frecuentes en Cataluña. Aparte de la preocupación por el coronavirus, destaca el empleo de hashtags en catalán, demostrando el vigor de este idioma en Twitter, y la elevada frecuencia de hashtags relacionados con la meteorología (#CMI, #meteocat, #meteo, #arameteo, #eltemps, #meteowareplus…), posiblemente debido a los tweets automáticos de CatalunyaMeteoInfo.
La siguiente figura muestra las menciones más frecuentes a usuarios en Cataluña. En este caso, los personajes específicos del ámbito de esta comunidad son los más mencionados de forma muy destacada (@QuimTorraiPla, @MiquelIceta, @OriolMitja).
Comunidad Valenciana
Por último, la siguiente figura muestra los hashtags más frecuentes en la Comunidad Valenciana. En este caso, parece una mezcla de los anteriores casos: preocupación por la pandemia y el confinamiento, la Semana Santa (primer hashtag #SemanaSanta en posición 11, #SemanaSantaEnCasa, #SemanaSanta2020…), y posiciones políticas en contra del gobierno (#GobiernoDimisión, #HazQuePaguen, #DimisiónYa), además de “La casa de papel” (posición 14).
Y la siguiente figura muestra las menciones más frecuentes a usuarios. Similar a lo anterior, hay una mezcla de políticos, partidos y medios de comunicación nacionales y personajes influencers o con una gran producción en Twitter, destacando con mucho las menciones al presidente Pedro Sánchez.
Otras comunidades
De forma resumida, los temas de interés en el resto de comunidades están en la misma línea: coronavirus, la política, la Semana Santa y “La casa de papel”. Sin embargo, caben mencionar algunas particularidades específicas de cada comunidad:
- Aragón: Cabe destacar la mención #75AniversarioCDS en 8ª posición, menciones específicas de la Semana Santa de Zaragoza (#HumildadZgz, #DulceNombreZgz) y el hashtag #FrenarLaCurva (en posición 11).
- Principado de Asturias: Destaca el hashtag #DesdeMiVentana en 8ª posición (única referencia en los frecuentes de España) y hashtags a favor de la política del gobierno (#StopFachaBulos en 10ª posición, #RepúblicaEsPosible)
- Islas Baleares: Aparecen de forma distintiva los hashtags #EstelConnecta y #EstelEstima y los de apoyo #GianmarquistaSiempre y #GianmarcoNoEstaSolo.
- Canarias: Cabe mencionar #SinIngresosNoHayCuotas y #animoAutonomos, así como #PreludioLibertad.
- Cantabria: De los hashtags políticos más frecuentes destacan #SanchezDimision, #FernandoSimonDimision, #GobiernoDimision.
- Castilla y León: El primer hashtag de carácter político es #YOAPOYOALGOBIERNO, más frecuente que #GobiernoDimision.
- Castilla-La Mancha: Aparecen menciones a kárate (#karateolímpico, #Karate2024) y también #GianmarquistaSiempre.
- Extremadura: Los hashtags más populares son #AmarVolarAlInvierno y #MiVoto20, quizás mostrando una menor preocupación por la menor incidencia de la pandemia en esta comunidad.
- Galicia: El único hashtag en gallego que aparece en el top 30 más frecuente es #EuQuedoNaCasa, aunque de escaso uso.
- Región de Murcia: El hashtag #YOAPOYOALGOBIERNO es mucho más frecuente que #GobiernoDimisionya.
- Comunidad Foral de Navarra: El hashtag más popular es #Navarra, más que los referentes al coronarvirus
- País Vasco: Ningún hashtag entre los más frecuentes en euskera. De los políticos, aparecen #ManifestaciónGobiernoDimisión y #500milneuronasentraelgobierno.
- La Rioja: Destacan #calahorracumple, #Calahorrasequedaencasa, #CalahorraEsSemanaSanta.
Barómetro
Finalmente, la figura siguiente muestra un mapa representando el número de hashtags de entre los 10 hashtags más frecuentes en cada comunidad autónoma que están relacionados con el coronavirus, bien como referencias directas (#COVID-19, #coronavirus), o al confinamiento (#YoMeQuedoEnCasa, #Cuarentena), mensajes de ánimo (#EsteVirusLoParamosUnidos, #TodoSaldráBien), etc. No se incluyen mensajes políticos ni de apoyo ni de crítica al gobierno.
Según estos resultados, la comunidad autónoma más preocupada por el coronavirus en el periodo de análisis es Castilla y León (con 8 de los 10 primeros hashtags) y las que menos, Extremadura y País Vasco (con 3).
Conclusiones
Con este primer análisis en Twitter hemos querido investigar en los temas de interés nacionales y por comunidades autónomas en Twitter, inicialmente basándonos en inferencias a partir de los hashtags, menciones a usuarios y URLs empleados por los propios usuarios, a modo de “categorización manual” de dichos contenidos. Este análisis permite sondear la opinión a nivel regional, de forma automatizada y con coste reducido en comparación con encuestas, aunque con las lógicas reservas en referencia al sesgo de muestreo al seleccionar los tweets (no se reciben todos los de España, sino los geoposicionados), y si el propio empleo de Twitter es representativo de los intereses y la forma de pensar de la población española en su conjunto, a nivel nacional y regional.
En futuros posts ampliaremos el estudio sobre este corpus empleando modelos de categorización específicos sobre COVID-19, así como análisis realizados sobre Twitter en otros países afectados por esta pandemia.
¿Quieres conocer más detalles sobre cómo se elaboró este estudio o acceder a los datos que nos sirvieron de materia prima? Contáctanos en support@meaningcloud.com.