El País de Octubre (según Twitter)
Tabla de contenido
El 18 de octubre de 2019 (en adelante 18O) pasó a la historia de Chile. Motivos sobran. Aunque pasó a la historia, es un evento que sigue sucediendo, un octubre que todavía no termina, una historia que se está escribiendo aún.
El 18O tiene una característica que otras revoluciones sociales no han tenido. Atrás quedó ese dicho “la historia la escriben los vencedores.” Dejando de lado que aquí no hay vencedores, ya que todes hemos perdido, hay algo que podemos afirmar desde ya: parte de la historia se está registrando en miles de dispositivos conectados a la Internet, utilizando la Web. Se está difundiendo lo que sucede y lo que sucederá a otros millones de dispositivos conectados, a través de redes sociales y de sistemas de mensajería privada. Cada hora se publican miles de opiniones, fotos y videos testimoniales. Algunos de estos posts se viralizan y marcan la pauta de la discusión.
Desde la investigación, esta fuente de datos presenta potencial porque nos permite entender cómo se siente la gente, y más aún, como expresa ese sentir. Qué es lo que opina, en lo individual, y que es lo que importa –en términos de generar reacciones– en lo global. Un factor relevante que podría explicar parte del 18O es que quienes concentran el poder económico y político no han sido capaces de entender el sentir de las personas. Pues bien, las redes sociales son una fuente de dicho sentir.
No es un secreto que las redes sociales tienen sesgos, así que no representan a todes. Son más utilizadas por gente joven, de áreas urbanas, con acceso a tecnología de gama media o alta, y con la educación tecnológica suficiente para expresarse en medios multimedia. Pero esto no implica que no sea una fuente rica de información, siempre y cuando se tengan estos sesgos en cuenta.
Twitter es una de las redes más usadas para entender la percepción de las personas, puesto que cualquiera puede escuchar lo que se dice en público. Se puede construir un robot (un programa) que esté pendiente de lo que se dice que incluya ciertas palabras, y luego de un tiempo, se dispone de un conjunto de tweets publicados que cumplan los criterios de búsqueda. Parte de mi tesis doctoral utilizó este esquema: tener un robot escuchando lo que se conversaba en Twitter sobre Chile, en períodos intermitentes en los años 2012 y 2013, y continuamente desde el 2015 hasta hoy. El robot registra tweets que, en su texto, incluyen Chile, Santiago, Concepción, Valparaíso, y otros nombres de ciudades; Bachelet, Piñera, Pinochet, Alessandri, y otros apellidos de políticos/as; lucro, aborto, educación, inmigración, fonasa, isapres, AFP, pensiones, carabineros, y otras palabras asociadas a temas coyunturales. Con estos datos, en la Universidad del Desarrollo hemos utilizado Twitter para estudiar la percepción del transporte en Santiago (en la tesis de Paula Vásquez-Henríquez, del Magíster en Ingeniería [13]) y las actitudes ante la inmigración (en la tesis de Yerka Freire, del Doctorado en Ciencias de la Complejidad Social [4]). En colaboración internacional, junto a Ricardo Baeza-Yates (NTENT) y Mounia Lalmas (Spotify) hemos publicado estudios sobre como la centralización en Chile afecta la difusión de información [7] y qué se puede hacer para mejorar esa situación[9], sobre la discusión entre personas que opinan distinto, y como podemos acercarlas utilizando algoritmos [8], y también sobre la representatividad de la discusión de aborto en Chile [5]. Por ejemplo, en Chile hay más hombres que mujeres participando en la red social, incluso en un debate asociado a género. Hemos aprendido que, si bien la población Twittera no tiene la misma distribución que en el país (por eso decimos que tiene sesgos), lo que uno puede aprender si utiliza las técnicas y modelos adecuados puede entregar resultados similares a los que tienen encuestas de opinión pública como la CEP.
Entonces, ¿qué podemos aprender de Chile y el 18O a través de Twitter? En este artículo vamos a explorar dos temas. Primero, ¿Quiénes participan de la discusión del 18O en los 90 días posteriores? Segundo, ¿Qué caracteriza al debate en términos emocionales?
Comencemos.
Participación #
El conjunto de tweets que analizamos comprende 11,9 millones de tweets publicados por 666 mil personas. Éste es el data set después de ser preprocesado para eliminar ruido y suciedad. Por ejemplo, si uno busca “Chile”, también encontrará tweets provenientes de México que hablan de ají (y sabemos que en ese país es un ingrediente fundamental); o cuando hay trending topics, mucha gente (y robots) publican tweets con publicidad que incluyen múltiples temas populares, como una manera de inyectar contenido en la discusión. Entonces es necesario contar con mecanismos que identifiquen y descarten este tipo de contenido. No es un proceso automático, sino que requiere mucho trabajo de exploración y validación manual.
Después de la limpieza del data set, nuestro esquema de análisis predice el sexo de una persona (hombre o mujer, lamentablemente es una clasificación binaria), su ubicación a nivel país (así podemos quedarnos con la conversación de gente en Chile solamente) y un rango de edad. Para ello utiliza el clasificador State-of-the-Art XGBoost [2] (para detalles, ver referencia [6]). En resumen, lo que se hace es utilizar la información que cada perfil disponibiliza públicamente (nombres, ubicaciones), más los retweets y menciones del perfil (una cuenta tiende a relacionarse con cuentas del mismo lugar). Por ejemplo, si alguien hace retweet a un medio de Punta Arenas, es probable que ese perfil sea de la Región de Magallanes. Un aspecto relevante de clasificar es que un programa siempre da una respuesta. Podemos entregarle un perfil de fantasía y aún así trataría de predecir sus atributos. Algunos clasificadores incluyen una medida de confianza en en la predicción, y en nuestro caso, usamos esta medida para decidir si quedarnos con la predicción o no.
Una vez que se ha predecido ubicación (obligatoria), sexo y edad para los perfiles, nos quedamos con la cantidad de perfiles mencionadas al comienzo de esta sección. Nos quedamos solamente con los perfiles que podemos determinar con cierta seguridad que pertenecen a gente que reside en Chile, porque nos interesa la participación en este país. Los otros atributos demográficos los consideramos opciones. En la Figura 1, cada grupo etáreo (por sexo) muestra la cantidad de personas twitteras que hay por cada 1,000 habitantes en el país. Si Twitter fuese representativo de la población general, veríamos números similares en cada categoría. Además, la representatividad de hombres y mujeres no es igual. En general, en Twitter (Chile) hay más hombres que mujeres, y también hay más adultos jóvenes que gente de 40 años o más. Les menores de edad también participan, sin embargo, su presencia no es tan fuerte en comparación a las de otras redes sociales. Ahora bien, en los grupos menores de 30 años sí hay más mujeres que hombres. Estas diferencias generacionales serán interesantes de estudiar en el futuro.
Las tasas de representatividad no cuentan toda la historia. Personalmente, llevo más de 10 años en Twitter, y seguro muchas personas también. La Figura 2 muestra la proporción de las personas (en el data set) que se registraron cada año. Los dos años que han tenido más registros han sido el 2010 y el 2019. Aunque el gráfico no lo muestra, las dos semanas que han tenido más registros han sido las del 27 de Febrero de 2010, y la del 18 de Octubre de 2019. Cuando el país está en crisis, acudimos a Twitter.
Una posible fuente de confusión es la aparición de robots que intentan influir en la discusión. Estos bots usualmente son cuentas automáticas que tienen poca duración, puesto que Twitter las elimina cuando son reportadas y detectadas. Aunque el año 2019 es el que tiene la mayor cantidad de cuentas creadas en el data set, no representa siquiera un quinto del total de las cuentas, por lo que es difícil pensar que existe una influencia de bots en la discusión. Presencia, sí, y ciertamente es un tema que debe ser investigado. El estudiante del Magister Profesional en Data Science de la UDD, Marcelo Rovai, desarrolló un modelo de clasificación de bots que utiliza características de las cuentas y del contenido que publican para dar un puntaje bot o bot score. Estas características incluyen la frecuencia de publicación y la manera de relacionarse con otras cuentas.
Una de las polémicas que se han dado en el 18O ha sido una posible influencia extranjera en la discusión. El esquema que utilizamos para clasificar la ubicación de las personas (un proceso llamado geolocalización) es similar al de cualquier otra plataforma (recordemos que estamos utilizando técnicas en el estado del arte). Efectivamente, en este experimento hemos encontrado cuentas extranjeras que participan, pero su volumen y su influencia no es relevante como para temer que existe intervención extranjera. Es más, todas las técnicas de geolocalización dependen de la información que entregan las cuentas, por tanto, cuesta creer que alguien que quiera influir en la discusión cree cuentas que explícitamente indiquen que provienen de otro país. Por el contrario, intentarían mezclarse con la multitud propia del país, y en ese caso, solamente Twitter sabe que son cuentas extranjeras, debido a la dirección IP de sus accesos a la red.
Caracterización Emocional #
La Figura 3 muestra las hashtags más frecuentes durante este largo octubre (entre el 18O y el 18 de Enero de 2020). Las hashtags de las primeras semanas dominan la nube de palabras, no solamente porque fue el período en el que se registró más gente, sino que también fue el período en que la discusión estaba más centralizada en unos pocos temas. Más adelante, la diversificación de la discusión derivó en aspectos puntuales que no fueron capturados por el robot. Por ejemplo, el robot no escucha “Convención Mixta” o “Convención Constituyente”, ni “Vota Apruebo”, ni “Rechazar para Reformar”, entre otros que son más frecuentes hoy. Entonces, esos temas son escuchados de manera más superficial. Esto no es una limitante, sino que es una decisión de diseño experimental, puesto que en el futuro queremos poder comparar distintos períodos de la discusión en Chile, y para ello necesitamos que los data sets sean comparables en aspectos como el proceso de captura de datos.
Aún así, la cantidad de tweets (casi 12 millones) y de perfiles (666 mil) nos permite hacer un retrato de como se sintió una gran cantidad de gente ante el 18O. Para hacerlo, recurrimos a la psicolingüística, una rama de estudio que abarca el uso del lenguaje y su relación con las emociones [12]. En resumen, existen conjuntos de palabras que usamos cuando nos sentimos de alguna manera específica. La agrupación de estos conjuntos se llaman lexicon y se pueden utilizar para analizar texto, incluyendo lo que publican las personas en Twitter.
¿Cómo funcionan los lexicon? El mecanismo es directo: se cuenta la cantidad de veces que son utilizadas las palabras de cada categoría en la unidad de análisis. Por ejemplo, si queremos analizar personas en específico, por cada persona construimos una tabla que contiene todas las categorías bajo análisis, y la cantidad de palabras de cada una de esas categorías que utilizó cada persona. Pero ese es solo el primer paso, puesto que existen múltiples sesgos en la generación de estas tablas. Por ejemplo, algunas personas publican mucho más que otras [1], y por tanto, una persona alegre y prolífica en Twitter puede tener más palabras tristes que una persona triste que solamente lee las noticias y responde de vez en cuando a alguien. Si analizamos a nivel de ubicaciones o de días, los sesgos de representatividad hacen que algunos grupos tengan mayor prevalencia que otros, respecto a su representación en el mundo físico. Entonces, el siguiente paso es definir una manera de medir las fluctuaciones o asociaciones en las palabras de cada categoría a través de la unidad de análisis. Por ejemplo, es común que en una comunidad siempre haya mayor frecuencia de palabras de una categoría específica. Lo que importa no es esa magnitud, sino la variación relativa entre una y otra. Una manera de medir esa variabilidad es a través de la estandarización, diciendo que en cada unidad de análisis se utiliza una categoría más que en el promedio de esa misma categoría. Otra manera es en medir la variabilidad y frecuencia de las categorías, y utilizar esas mediciones para determinar si una unidad de análisis específica tiene mayor asociación a las palabras considerando también la varibilidad y frecuencia de las otras categorías. Este enfoque se conoce como Log-Odds Ratio with Uninformative Dirichlet Prior [10], y es el que utilizamos en el análisis. El mecanismo es directo: se cuenta la cantidad de veces que son utilizadas las palabras de cada categoría en la unidad de análisis. Por ejemplo, si queremos analizar personas en específico, por cada persona construimos una tabla que contiene todas las categorías bajo análisis, y la cantidad de palabras de cada una de esas categorías que utilizó cada persona. Pero ese es solo el primer paso, puesto que existen múltiples sesgos en la generación de estas tablas. Por ejemplo, algunas personas publican mucho más que otras [1], y por tanto, una persona alegre y prolífica en Twitter puede tener más palabras tristes que una persona triste que solamente lee las noticias y responde de vez en cuando a alguien. Si analizamos a nivel de ubicaciones o de días, los sesgos de representatividad hacen que algunos grupos tengan mayor prevalencia que otros, respecto a su representación en el mundo físico. Entonces, el siguiente paso es definir una manera de medir las fluctuaciones o asociaciones en las palabras de cada categoría a través de la unidad de análisis. Por ejemplo, es común que en una comunidad siempre haya mayor frecuencia de palabras de una categoría específica. Lo que importa no es esa magnitud, sino la variación relativa entre una y otra. Una manera de medir esa variabilidad es a través de la estandarización, diciendo que en cada unidad de análisis se utiliza una categoría más que en el promedio de esa misma categoría. Otra manera es en medir la variabilidad y frecuencia de las categorías, y utilizar esas mediciones para determinar si una unidad de análisis específica tiene mayor asociación a las palabras considerando también la varibilidad y frecuencia de las otras categorías. Este enfoque se conoce como Log-Odds Ratio with Uninformative Dirichlet Prior [10], y es el que utilizamos en el análisis.
Uno de los lexicon más utilizado es Linguistic Inquiry and Word Count (LIWC), que está disponible en castellano desde el año 2001, y que ha sido utilizado para estudios de redes sociales que van desde la detección de depresión [3] hasta la medición de la felicidad de un país [11]. En un trabajo en progreso, hemos adaptado parte de LIWC al castellano chileno. Por ejemplo, en la categoría swear (palabrotas, garabatos) agregamos palabras como “hueón” y sus variaciones; en las categorías body y sexual (cuerpo y sexualidad) agregamos palabras como “poto”; en tiempo, “altiro”; entre otras. No solamente agregamos palabras, también las quitamos: en dinero eliminamos “bolívar”, puesto que confundía la moneda venezolana con la calle del mismo nombre (y que aparece en nuestro estudio sobre percepción en transporte).
Analizamos la emoción día a día usando LIWC con toda la población que participó en la discusión. Para cada día contamos la cantidad de palabras disponibles en cada categoría semántica, y después convertimos ese conteo en proporciones (por ejemplo, 80% de las palabras categorizables pertenece a una categoría ). Luego estimamos la asociación de cada día con cada categoría a través de la técnica de Log-Odds Ratio. Nos enfocaremos en tres emociones: ansiedad (anx en LIWC), enojo (anger) y sentimientos positivos (posfeel). Como consideramos cada día como unidad de análisis, lo que podemos aprender es qué tan asociada está cada categoría a cada día. Valores mayores a 0 implican una asociación intensa, una presencia fuerte de esa categoría. Valores cercanos a 0 indican neutralidad. Valores negativos implican ausencia de la categoría. La magnitud está medida en puntos porcentuales.
Con los resultados podemos diseñar un “emociograma” (Figura 4) donde es directo identificar los peaks emocionales y sus respectivas fechas. En el enojo o rabia, hay una fecha que destaca sobre las demás: el 21 de diciembre. Puede haber múltiples explicaciones para ese peak, sin embargo, es factible pensar que se debe al atropello (en la tarde anterior) de un manifestante por un carro lanzagases (“zorrillo”) de Carabineros, y a que ese día también se determinó que el conductor del carro tuviese como sanción ir a firmar a tribunales mensualmente.
La ansiedad fue el sentimiento dominante los primeros días de la crisis, y niveles similares de ansiedad aparecen en otras fechas, en un ciclo entre tres y cuatro semanas. Este vaivén de ansiedad nos muestra una señal preocupante, relacionada con el efecto en la salud mental de no poder salir de una crisis social.
En sentimientos positivos solamente hay dos peaks: navidad y año nuevo. Dos fechas especiales en las que, a pesar de la crisis, se podía compartir con familiares y amigues. Fuera de esas fechas, los sentimientos positivos están principalmente ausentes de la discusión, aunque esta negatividad tiene una tendencia a disminuir con el tiempo. También vemos que las emociones no son excluyentes, y que en las cercanías de año nuevo es posible estar ansioso y tener alegría. Esta ambivalencia nos llama a estudiar con mayor profundidad este fenómeno en el futuro.
Conclusiones #
El 18O no ha terminado aún, pero gracias a las redes sociales es posible estudiar lo que se va registrando, en un tiempo quasi real. En ese contexto, aquí exploramos la superficie de lo posible con datos de Twitter. Mostramos que la cantidad de gente que discute el tema es considerable, sin embargo, antes de sacar conclusiones sobre lo discutido, hay que considerar las características socio-demográficas de esas personas. La red de Twitter tiene sesgos, algunos explícitos, y otros implícitos. Las personas también los tienen. Y las plataformas también los tienen — a fin de cuentas, Twitter es un negocio, y lo que busca optimizar son sus ganancias.
El análisis revela que es posible medir la fluctuación emocional en la plataforma. Cuando es necesario entender qué es lo que siente un sector de la sociedad, y ese sector está representado en Twitter, entonces este tipo de “emociograma” permite explorar dicho sentir. Lo presentado aquí es a nivel de todes les participantes en la red, por tanto tiene un sesgo hacia los hombres y hacia la gente joven con acceso a tecnología. Eso no impide repetir el ejercicio para subconjuntos de la población, por ejemplo, se puede hacer un cálculo para hombres y otro para mujeres, de modo de comparar las diferencias en intensidad y también en ubicación de puntos críticos.
Hay más temas que se pueden explorar con estos datos. Desde las redes de difusión, la fragmentación de las comunidades, hasta la evidencia que queda producto de los abusos policiales y las violaciones a los derechos humanos. De hecho, la cantidad de tweets con fotos y videos es cercana al 10%. Ese porcentaje incluye memes, noticias, y también registros invaluables de lo que sucede y no muestran los medios ni las versiones oficiales.
Finalmente, la historia de un nuevo Chile está escribiéndose. A diferencia de tiempos pasados, se escribe en múltiples plataformas, con distintos medios. Es un desafío para la ciencia de datos y las ciencias sociales poder tomar todo este cuerpo de información y convertirlo en conocimiento que nos ayude a mejorar nuestro entendimiento de la sociedad y de nuestro pasado, presente y futuro.
Notas: esta versión del artículo fue publicada en una versión editada y corregida en la Revista de Investigación UDD. Sin embargo, debido a un error de coordinación la versión editada quedó sin referencias. Por tanto, estilísticamente es una versión mejor, pero el contenido completo está en este artículo.
Agradecimientos: a Alexis Ibarra por su sugerencia de “electrocardiograma de las emociones.”
Referencias #
[1] Baeza-Yates, R. 2018. Bias on the Web. Communications of the ACM. 61, 6 (2018), 54–61.
[2] Chen, T. and Guestrin, C. 2016. XGBoost: A scalable tree boosting system. Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining (2016), 785–794.
[3] De Choudhury, M. et al. 2013. Predicting depression via social media. Seventh international AAAI conference on weblogs and social media (2013).
[4] Freire-Vidal, Y. and Graells-Garrido, E. 2019. Characterization of local attitudes toward immigration using social media. Companion proceedings of the 2019 World Wide Web conference (2019), 783–790.
[5] Graells-Garrido, E. et al. 2019. How representative is an abortion debate on Twitter? Proceedings of the 10th ACM conference on Web science (2019), 133–134.
[6] Graells-Garrido, E. et al. 2020. Representativeness of abortion legislation debate on Twitter: A case study in Argentina and Chile. Companion proceedings of the Web Conference 2020 (WWW’20 companion) (2020), To appear.
[7] Graells-Garrido, E. and Lalmas, M. 2014. Balancing diversity to counter-measure geographical centralization in microblogging platforms. Proceedings of the 25th ACM conference on hypertext and social media (2014), 231–236.
[8] Graells-Garrido, E. et al. 2016. Data portraits and intermediary topics: Encouraging exploration of politically diverse profiles. Proceedings of the 21st international conference on intelligent user interfaces (2016), 228–240.
[9] Graells-Garrido, E. et al. 2016. Encouraging diversity-and representation-awareness in geographically centralized content. Proceedings of the 21st international conference on intelligent user interfaces (2016), 7–18.
[10] Monroe, B.L. et al. 2008. Fightin’words: Lexical feature selection and evaluation for identifying the content of political conflict. Political Analysis. 16, 4 (2008), 372–403.
[11] Quercia, D. et al. 2012. Tracking “Gross Community Happiness” from tweets. Proceedings of the ACM 2012 conference on computer supported cooperative work (2012), 965–968.
[12] Tausczik, Y.R. and Pennebaker, J.W. 2010. The psychological meaning of words: LIWC and computerized text analysis methods. Journal of language and social psychology. 29, 1 (2010), 24–54.
[13] Vasquez-Henriquez, P. et al. 2019. Characterizing transport perception using social media: Differences in mode and gender. Proceedings of the 10th ACM conference on Web science (2019), 295–299.