Ir al contenido
  1. Cursos/
  2. Visualizaci贸n de Informaci贸n/

Visualizaci贸n de Texto

·20 mins

Hasta esta unidad hemos visto diferentes tipos de datasets estructurados. Debido a la estructura y atributos de cada dataset pod铆amos determinar las marcas y canales efectivas y coherentes al dise帽ar una visualizaci贸n. En las visualizaciones que hemos conocido, el texto ha estado presente: lo utilizamos para darle nombre a los atributos, y as铆, por ejemplo, poner una etiqueta en el eje x, desplegar el nombre de los nodos en un node_link_diagram de una red social, o indicar el nombre de un 谩rea geogr谩fica en un choropleth_map. Sin embargo, podemos encontrar situaciones en las que el texto no es un atributo explicativo o una anotaci贸n, sino que es parte de la tarea a realizar. Esta situaci贸n es frecuente, puesto que pran parte de la informaci贸n disponible en el mundo es texto.

驴C贸mo luce una visualizaci贸n con texto? La siguiente visualizaci贸n (explicada con mayores detalles aqu铆) muestra un line_chart que muestra el volumen de tweets generados en una discusi贸n durante cuatro a帽os, utilizando notas para explicar eventos relevantes, y marcas de texto para indicar los temas, palabras y otros elementos textuales relevantes para cada a帽o de discusi贸n:

Caracterizando per铆odos de tiempo con el lenguaje asociado a cada a帽o en la discusi贸n sobre aborto en Twitter. Fuente: Eduardo Graells-Garrido, Ricardo Baeza-Yates, & Mounia Lalmas. Every Colour You Are: Stance Prediction and Turnarounds in Controversial Issues.
Caracterizando per铆odos de tiempo con el lenguaje asociado a cada a帽o en la discusi贸n sobre aborto en Twitter. Fuente: Eduardo Graells-Garrido, Ricardo Baeza-Yates, & Mounia Lalmas. Every Colour You Are: Stance Prediction and Turnarounds in Controversial Issues.

Cuando el texto es una marca y no una anotaci贸n nos encontramos con distintos desaf铆os: su tama帽o depende del largo del texto y de la tipograf铆a utilizada, tambi茅n puede contener elementos utilizados en el texto pero que no son textuales, como emoji (馃挌 en este caso). En el ejemplo, la posici贸n en el eje x del texto expresa el a帽o que est谩 caracterizando, y la posici贸n en el eje y expresa la relevancia que tuvo para ese a帽o. El tama帽o de la tipograf铆a tambi茅n codifica ese valor. Ahora bien, este ejemplo no define una t茅cnica en particular, porque el principal componente de la visualizaci贸n sigue siendo un line_chart. Podr铆amos decir que es un line_chart contextualizado con una visualizaci贸n de texto.

As铆, en esta unidad exploraremos distintas t茅cnicas de visualizaci贸n de texto. A diferencia de los data sets que hemos visto hasta ahora, el texto no tiene una estructura clara, de hecho, se le considera un tipo de dato no estructurado. 驴C贸mo es eso posible? Para nosotres, las personas, el texto s铆 tiene estructura. Podemos identificar letras, palabras, frases, p谩rrafos, documentos — elementos que entendemos gracias a la gram谩tica y a la sem谩ntica. Entonces, 驴por qu茅 decimos que no tiene estructura?

La estructura que vemos en el texto est谩 en nuestras mentes y en la estructura comunicacional de la sociedad. No est谩 especificada en como se almacena el texto en una m谩quina. En t茅rminos b谩sicos, un documento suele ser almacenado como una larga cadena de car谩cteres, uno detr谩s del otro. Los aspectos estructurales que son comunes en otros tipos de datos no son necesariamente significativos o 煤tiles en el texto. Por ejemplo, en una tabla sabemos que cada fila tiene la misma cantidad de columnas. En un corpus o conjunto de documentos, 驴tienen todos los documentos la misma cantidad de palabras?驴Se utilizan las mismas palabras en cada uno de ellos?驴Est谩n todos en el mismo idioma? Imponer una estructura al texto sin saber lo que queremos hacer con 茅l limitar谩 los problemas que podemos resolver y las herramientas que podamos utilizar.

Antes de definir c贸mo almacenaremos o analizaremos un texto o un corpus necesitamos definir los tipos de tareas realizables. Algunos ejemplos de tareas para texto son las siguientes:

  • Entender lo que contiene un documento o conjunto de documentos (corpus).
  • Agrupar documentos distintos dentro de una misma categor铆a de acuerdo a su similitud.
  • Comparar y medir qu茅 diferencia un texto o colecci贸n de documentos de otro(a).
  • Medir la evoluci贸n en el tiempo de un texto de una colecci贸n de documentos.
  • Correlacionar patrones en el texto con los de otros data sets, por ej., con los de una red social.

Adem谩s de nuestro enfoque basado en tareas, debemos cuestionar la interpretaci贸n y la confianza en una visualizaci贸n de texto. Interpretaci贸n se refiere a qu茅 tan bien las propiedades del modelo son caracterizadas por la visualizaci贸n. Confianza se refiere a cu谩nto podemos entender el texto debido al modelo. Por ejemplo, si no sabemos si el modelo es adecuado, 驴es debido al modelo o a la visualizaci贸n?

Tal como suced铆a con las tareas para otros datasets, algunas de estas operaciones pueden ser automatizables para ciertos casos de uso, mientras que en otros casos deberemos complementar los resultados de un m茅todo computacional con el conocimiento humano. Por ello, antes de explorar t茅cnicas de visualizaci贸n, vamos a ver un resumen de estructuras de datos y t茅cnicas computacionales de an谩lisis de texto.

Estructura de Datos y An谩lisis de Texto #

驴C贸mo representar una colecci贸n de documentos? Para poder visualizar texto necesitamos darles una estructura. No siempre se visualiza el texto directamente, sino que suele utilizarse un modelo de lenguaje, un enfoque para convertir el texto en estructuras que ya conozcamos. Veremos distintos enfoques, desde algunos sencillos (bag of words) a otros complejos basados en operaciones matem谩ticas sobre la estructura del texto.

Uno de los enfoques m谩s utilizados, y que de cierto modo es base para casi todos los dem谩s, es bag of words (bolsa de palabras). En este esquema, una colecci贸n se representa con una matriz: en la imagen, cada columna es un documento, y cada fila es una palabra. Cada celda contiene la frecuencia de la palabra correspondiente a la fila en el documento correspondiente a la columna, es decir, la cantidad de veces que aparece una palabra en un documento:

Matriz Documentos-T茅rminos, o Document-Term Matrix, correspondiente al enfoque <em>bags of words</em>. Fuente: Wikipedia.
Matriz Documentos-T茅rminos, o Document-Term Matrix, correspondiente al enfoque bags of words. Fuente: Wikipedia.

Un t茅rmino puede ser una palabra, pero tambi茅n puede ser un s铆mbolo (como los emoji), una expresi贸n de m煤ltiples palabras juntas (un n-grama). El t茅rmino bag of words le da un significado gen茅rico a word (palabra). Noten que esta representaci贸n pierde el orden en el que aparecieron las palabras en el documento. De ah铆 el nombre bolsa de palabras: est谩n todas juntas en la bolsa sin un orden espec铆fico. Llamaremos a esta matriz como dtm (document-term matrix)

Debemos tener cuidado con el tama帽o de la dtm, ya que la cantidad de palabras que tendremos suele ser 贸rdenes de magnitud m谩s grande que la cantidad de documentos. Afortunadamente, la mayor铆a de los documentos usa una fracci贸n 铆nfima del total del vocabulario disponible, de modo que la matriz est谩 llena de ceros. Este tipo de matriz es conocida como sparse matrix (matriz dispersa) y existen maneras eficientes de almacenarlas.

Al ser una matriz podemos realizar operaciones algebraicas sobre sus filas y columnas, que permiten responder preguntas como el tama帽o de la colecci贸n, las palabras o documentos con mayor/menor frecuencia, o incluso calcular la similitud entre dos documentos.

Pero, 驴basta describir relaciones entre documentos y palabras para entender un corpus? A veces es necesario entender qu茅 es lo que contienen los documentos en t茅rminos sem谩nticos. Las t茅cnicas de topic modeling (modelamiento de t贸picos) buscan identificar los temas o t贸picos en los documentos de un corpus; algunas de estas t茅cnicas aprovechan la estructura matricial del corpus para hacerlo. Es el caso de Non-Negative Matrix Factorization (nmf), o factorizaci贸n no-negativa de matrices. Esta t茅cnica busca descomponer la matrix original M (una dtm), que contiene m documentos (columnas) y n palabras (filas), en la multiplicaci贸n de dos matrices A x W, donde A es de n palabras (filas) y r t贸picos (columnas), y W de r t贸picos y m documentos, como se ve a continuaci贸n:

Diagrama que explica el funcionamiento de Non-Negative Matrix-Factorization. Fuente: S. Arora et al. Building Topic Models Based on Anchor Words.
Diagrama que explica el funcionamiento de Non-Negative Matrix-Factorization. Fuente: S. Arora et al. Building Topic Models Based on Anchor Words.

Esta descomposici贸n es posible debido a que todos los elementos de M son positivos (>= 0). La factorizaci贸n se define como un problema de optimizaci贸n, y en s铆 misma no es un problema de modelamiento de lenguaje, m谩s bien la interpretaci贸n que se les da a las matrices A y W se relaciona con lenguaje. La matriz A contiene la relaci贸n entre las palabras del corpus y los t贸picos, y la matriz W contiene la relaci贸n entre los documentos y los t贸picos. De esta manera, la relaci贸n entre un documento y sus palabras (codificada en la matriz M) se expresa como la suma de la relaci贸n entre palabras y t贸picos, y la relaci贸n entre t贸picos y documentos. Ahora bien, 驴de d贸nde sale el par谩metro r, que define la cantidad de t贸picos a analizar? Usualmente es un par谩metro especificado por la persona que realiza el modelamiento. No existe una regla que indique el n煤mero 贸ptimo de temas dentro de un corpus, adem谩s, las relaciones que encuentra este m茅todo son latentes, es decir, obedecen a patrones matem谩ticos dentro de la matriz M y no necesariamente a como una persona interpreta el concepto “t贸pico” o “tema.” Por ello, la visualizaci贸n de modelos de t贸picos es importante, ya que permite entender lo que est谩 capturando el modelo e iterar sobre los par谩metros que recibe.

Otra interpretaci贸n de nmf es que realiza una reducci贸n dimensional, ya que permite expresar tanto palabras como documentos como un vector de menores dimensiones a las originales. Aunque si lo que buscamos es reducir la dimensionalidad de nuestro dataset, existen t茅cnicas mejores y m谩s adecuadas para visualizaci贸n.

Una de esas t茅cnicas es umap (Uniform Manifold Approximation and Projection). En esencia, es una t茅cnica de reducci贸n dimensional que considera relaciones complejas entre los elementos del dataset, en contraste con nmf que considera que un elemento es la simple suma de sus componentes latentes. Esta t茅cnica se suele utilizar para expresar cada elemento del dataset en 2 o 3 dimensiones, lo que facilita su visualizaci贸n. Como ejemplo, esta proyecto muestra un corpus de documentos filos贸ficos, para mostrar “la estructura de la filosof铆a reciente.” Para ello, primero aplica umap sobre la dtm, luego un algoritmo de clustering para identificar grupos y finalmente un posicionamiento de etiquetas y anotaciones que puede ser manual. El resultado es el siguiente:

La estructura de la filosof铆a. Fuente: Maximilian Noichl.
La estructura de la filosof铆a. Fuente: Maximilian Noichl.

Es com煤n utilizar umap (o t茅cnicas similares) para presentar una vista global del dataset. Por ejemplo, una persona podr铆a hacer clic en uno de los clusters de la visualizaci贸n, y as铆 entrar a otra vista que muestre los detalles de ese cluster.

Existen modelos m谩s avanzados que s铆 consideran el orden y las secuencias de palabras. Es un tema que queda para un curso avanzado de Machine Learning o Procesamiento de Lenguaje Natural (NLP). Sin embargo, el resultado de dichos modelos sigue expres谩ndose como vectores o matrices asociadas al texto, y por tanto, algunas de las t茅cnicas de visualizaci贸n que veremos en esta unidad tambi茅n se pueden aplicar a ellos. Tambi茅n veremos t茅cnicas de visualizaci贸n que se pueden aplicar a otros aspectos del texto, por ejemplo, a su estructura ling眉铆stica o a una estructura de red inferida.

Word Cloud #

Las word_cloud surgieron como una manera de navegar por sitios en la (ya) vieja Web 2.0. En ellas, cada palabra en el corpus es una marca cuyo canal de tama帽o es proporcional a su frecuencia. Usualmente el canal de color es aleatorio, y el canal de posici贸n optimiza el espacio entre las palabras para que sea el menor posible. La siguiente es la word_cloud de una canci贸n recientemente popular en Chile:

Fing铆as de Paloma Mami.
Fing铆as de Paloma Mami.

Aunque las word_cloud son un tipo de visualizaci贸n popular tienen muchos defectos visibles en la imagen. En funci贸n de los principios de dise帽o, el canal de 谩rea utilizado para graficar la frecuencia dificulta comparaciones, tanto por percepci贸n como al largo de las palabras. Adem谩s las palabras m谩s frecuentes no son necesariamente informativas. Es posible quitar palabras comunes o frecuentes que no significan nada por s铆 mismas (como “que” o “lo”), sin embargo, se puede confundir la noci贸n de volumen (frecuencia) con la de relevancia.

Si la tarea es tener una vista global del vocabulario, una word_cloud puede ser un buen punto de partida debido a que permite agrupar muchas palabras en poco espacio. Pueden hacer las suyas en la p谩gina de Jason Davies.

Un uso de word_cloud es como elemento de navegaci贸n. El siguiente ejemplo muestra un data portrait, concepto acu帽ado por Judith Donath que define un retrato generado a partir de los datos de un perfil (en el ejemplo, el m铆o en Twitter el 2015), donde la word_cloud es el principal elemento de navegaci贸n:

Data Portraits. 驴C贸mo te ves en la Web? Fuente: E. Graells-Garrido, M. Lalmas, R. Baeza-Yates, Data portraits and intermediary topics: Encouraging exploration of politically diverse profiles.
Data Portraits. 驴C贸mo te ves en la Web? Fuente: E. Graells-Garrido, M. Lalmas, R. Baeza-Yates, Data portraits and intermediary topics: Encouraging exploration of politically diverse profiles.

En este ejemplo, el canal de color no es aleatorio, ya que expresa la categor铆a de cada t茅rmino incluido en la word_cloud. Al hacer click en una palabra se muestra el per铆odo de tiempo en que esa palabra se utiliza, a trav茅s de los colores del bar_chart que muestran la frecuencia de twitteo por semana del a帽o. Al mismo tiempo, al hacer clic en una barra del bar_chart, se muestran las palabras que se utilizaban en la fecha correspondiente. De esta manera, el data portrait permite explorar el contenido que genera una persona desde una vista tem谩tica y temporal.

Bubble Clouds #

Una bubble_cloud es similar a un scatter_plot en tanto las marcas son c铆rculos (burbujas) posicionadas en el espacio, cuyo canal de tama帽o representa la frecuencia de la palabra correspondiente a la marca. Cada burbuja tiene escrita sobre s铆 la palabra correspondiente. Esta codificaci贸n visual resuelve algunas de las limitaciones de las word_cloud, y permite incorporar otros atributos en cada marca. Es un gr谩fico agradable est茅ticamente y f谩cil de entender.

El siguiente ejemplo muestra uno de los casos de uso m谩s populares de bubble_cloud, donde la posici贸n en el eje x expresaba la asociaci贸n pol铆tica de cada palabra utilizada en los discursos de candidatos presidenciales en los Estados Unidos:

Asociaci贸n de cada palabra con los partidos pol铆ticos en los Estados Unidos. Fuente: New York Times.
Asociaci贸n de cada palabra con los partidos pol铆ticos en los Estados Unidos. Fuente: New York Times.

El uso de colores para mostrar la distribuci贸n del uso de cada palabra en los dos documentos del corpus (uno representando a Barack Obama y el otro a Mitt Romney) permite entender la sem谩ntica de la posici贸n de las burbujas, y obtener conocimiento respecto a como cada candidato utiliza un lenguaje distinto para expresarse.

Parallel Tag Cloud #

Otra variaci贸n de la word_cloud es parallel_tag_cloud, una visualizaci贸n que pone el 茅nfasis en las distintas facetas o categor铆as que tiene un corpus. Las facetas incluyen tem谩ticas, tiempo de publicaci贸n de los documentos, y otras categor铆as, que suelen estar predefinidas antes de la visualizaci贸n. As铆 luce esta t茅cnica:

Fuente: C. Collins, F. Vi猫gas, &amp; M. Wattenberg. Parallel tag clouds to explore and analyze faceted text corpora.
Fuente: C. Collins, F. Vi猫gas, & M. Wattenberg. Parallel tag clouds to explore and analyze faceted text corpora.

Esta visualizaci贸n muestra para cada faceta la distribuci贸n de la frecuencia o relevancia de palabras, y al mismo tiempo, c贸mo esa relevancia var铆a a lo largo de las facetas. As铆 podemos entender cuales facetas son similares (o no), y cu谩l es el vocabulario asociado a cada faceta.

ScatterText #

ScatterText es un scatter_plot que enfatiza las diferencias entre dos documentos (o dos categor铆as de documentos) respecto a sus t茅rminos m谩s relevantes (隆no necesariamente los m谩s frecuentes!). Es una herramienta en Python que incluye m煤ltiples maneras de calcular dicha relevancia. El l铆mite de dos documentos est谩 dado por la codificaci贸n visual, basada en un eje vertical y otro horizontal. La visualizaci贸n luce as铆:

Una visualizaci贸n de Scattertext es un scatterplot con texto. Fuente: Jason Kessler, Scattertext: a Browser-Based Tool for Visualizing how Corpora Differ.
Una visualizaci贸n de Scattertext es un scatterplot con texto. Fuente: Jason Kessler, Scattertext: a Browser-Based Tool for Visualizing how Corpora Differ.

En el ejemplo, el eje y codifica la asociaci贸n en el vocabulario de un corpus de pol铆tica hacia hombres y mujeres, y el eje x hacia republicanos y dem贸cratas en los Estados Unidos. As铆, esta t茅cnica nos muestra que es posible aprovechar visualizaciones existentes para realizar tareas con texto.

Shifterator #

Shifterator es otra herramienta que visualiza diferencias entre dos textos, esta vez utilizando dos stacked_bar_chart como base, uno por cada documento. Al igual que ScatterText, se basa en una bater铆a de c谩lculos de relevancia, que denomina word_shifts, y que se pueden calcular en funci贸n del sentimiento de las palabras y del per铆odo en que se utilizan, y que son asociados de manera positiva o negative en su aporte a cada documento. Luce as铆:

Shifterator que compara los discursos de dos presidentes de Estados Unidos.
Shifterator que compara los discursos de dos presidentes de Estados Unidos.

El eje y permite expresar la importancia de las palabras (m谩s importante, m谩s arriba) y la direcci贸n de cada barra permite expresar su contribuci贸n o relevancia para cada documento. El color de cada barra expresa el tipo de asociatividad. De este modo, esta t茅cnica permite determinar r谩pidamente qu茅 y c贸mo se caracterizan dos documentos (tambi茅n podr铆an ser dos facetas) de un corpus.

LDA Vis #

Como comentamos antes, cuando se realiza topic modeling de una colecci贸n se vuelve necesario visualizar los t贸picos. El software pyLDAvis utiliza una visualizaci贸n interactiva compuesta de un scatter_plot y un stacked_bar_chart para que podamos explorar el espacio de topics de un corpus. El sistema recibe su nombre de la t茅cnica de topic modeling lda (Latent Dirichlet Allocation), pero tambi茅n es compatible con nmf. El sistema luce as铆:

LDAVIS, un sistema para visualizar t贸picos. Fuente: C. Sievert &amp; K. Shirley. LDAvis: A method for visualizing and interpreting topics.
LDAVIS, un sistema para visualizar t贸picos. Fuente: C. Sievert & K. Shirley. LDAvis: A method for visualizing and interpreting topics.

Observamos a la derecha el scatter_plot que muestra cada t贸pico como una burbuja, con una posici贸n calculada utilizando reducci贸n dimensional. Esto permite saber cu谩les t贸picos se parecen (porque est谩n cerca en el gr谩fico). Al hacer clic en una burbuja, el gr谩fico a la izquierda se actualiza para mostrar los t茅rminos asociados a ese t贸pico. Ese gr谩fico es un stacked_bar_chart que muestra la distribuci贸n de frecuencia de t茅rminos asociados al t贸pico (barras rojas) y la distribuci贸n de esos mismos t茅rminos en el corpus completo (barras grises). Esta interactividad permite explorar todos los t贸picos, y determinar si es necesario agregar m谩s t贸picos (porque algunos presenten temas mezclados entre s铆) o reducirlos (porque algunos puedan ser redundantes, o contener ruido).

Topic Competition #

Como vimos en parallel_tag_cloud, una colecci贸n de documentos no es est谩tica, ya que puede tener facetas de tiempo. Por tanto, sus t贸picos tampoco son est谩ticos: cada t贸pico puede tener su propio comportamiento temporal.

Para entender las din谩micas de los t贸picos, la visualizaci贸n topic_competition utiliza m煤ltiples streamgraph para mostrar la evoluci贸n temporal de cada t贸pico. Debido a que el comportaimento de los t贸picos puede ser complejo, estas visualizaciones son apoyadas por algoritmos que calculan los flujos del streamgraph de manera que se crucen lo menos posible y que se pueda comprender el contenido de cada uno. Dicho contenido se presenta con visualizaciones incrustadas como word_cloud, as铆:

Evoluci贸n de los temas de una colecci贸n en el tiempo. Fuente: P. Xu et al. Visual analysis of topic competition on social media.
Evoluci贸n de los temas de una colecci贸n en el tiempo. Fuente: P. Xu et al. Visual analysis of topic competition on social media.

Visualizaciones como topic_competition son 煤tiles sobretodo para humanidades digitales y periodismo de datos, ya que permiten analizar como distintos fen贸menos basados en texto evolucionan en el tiempo.

Phrase Nets #

Otro enfoque de ver estructura en el texto es utilizar patrones basados en sintaxis. Por ejemplo, podr铆amos revisar todas las instancias en que aparece un texto del estilo “A y B”, y cada A y cada B que cumpla con ese patr贸n es considerado como un par de nodos conectado en una red. Como tal, es una red que puede ser visualizada utilizando un node_link_diagram. Esta visualizaci贸n existe y se llama phrase_net. El siguiente es un ejemplo del patr贸n “X is Y” aplicado al texto de la novela Orgullo y Prejuicio (en su edici贸n original en ingl茅s):

Una Phrase Net de Orgullo y Prejuicio. Fuente: F. Van Ham, M. Wattenberg, &amp; F. Vi猫gas. Mapping text with phrase nets.
Una Phrase Net de Orgullo y Prejuicio. Fuente: F. Van Ham, M. Wattenberg, & F. Vi猫gas. Mapping text with phrase nets.

A diferencia del node_link_diagram t铆pico, aqu铆 utilizamos palabras como marcas, de manera similar a las word_cloud. Ahora bien, en la red observamos comunidades tanto de personajes que son mencionados juntas (como Jane y Elizabeth) como de sentimientos (pride and vanity, regret and vexation) y de acciones (play and sing). Si quisieramos conocer la estructura de relaciones en la novela, este tipo de visualizaci贸n permite responder preguntas sobre la topolog铆a de dicha red. Ahora bien, hace falta definir un patr贸n m谩s completo que “X is Y” para que la red sea exhaustiva.

Evoluci贸n y Cambios: History Flow #

Adem谩s de las facetas del texto (como la fecha de publicaci贸n), existen otros atributos relevantes. Por ejemplo, el historial de modificaci贸n de un documento - particularmente si es escrito por m谩s de una persona. El sistema history_flow permite ver el proceso de escritura y construcci贸n de los art铆culos de Wikipedia, tanto a nivel temporal (cu谩ndo se agreg贸 o quit贸 contenido) como autoral (qui茅n agreg贸 o quit贸 contenido). El sistema utiliza un stacked_area_chart donde cada autor(a) es expresada en una de las 谩reas de la visualizaci贸n. Luce as铆:

Evoluci贸n de un art铆culo en Wikipedia visto por History Flow. Fuente: F. Vi茅gas, M. Wattenberg, K. Dave, Studying cooperation and conflict between authors with history flow visualizations.
Evoluci贸n de un art铆culo en Wikipedia visto por History Flow. Fuente: F. Vi茅gas, M. Wattenberg, K. Dave, Studying cooperation and conflict between authors with history flow visualizations.

Este tipo de visualizaci贸n permite conocer como un tema en Wikipedia evoluciona con el tiempo, es decir, descubrir cu谩ndo el tema se volvi贸 relevante, cu谩ndo fue pol茅mico, cu谩ndo despert贸 el inter茅s del p煤blico general y cu谩nto dur贸 ese inter茅s — algo 煤til para correlacionar con datos hist贸ricos, como eventos legislativos, de modo de entender el efecto de eventos noticiosos o pol铆ticos en la percepci贸n de las personas sobre el tema, que en el caso del ejemplo, es pol茅mico: el aborto.

Notabilia #

Notabilia es una visualizaci贸n org谩nica que muestra los procesos de edici贸n en Wikipedia desde el conflicto: se focaliza en los art铆culos que son marcados para eliminaci贸n. Cada art铆culo es una l铆nea cuya trayectoria se forma a medida que la discusi贸n decide si el art铆culo se elimina o se mantiene en la enciclopedia. La codificaci贸n visual de esta visualizaci贸n utiliza una polil铆nea por cada art铆culo, cuyo trazado est谩 influenciado por las decisiones que toman les editores en el tiempo. Si el art铆culo recibe votos de mantenci贸n, se suma un segmento verde, hacia la izquierda. Si recibe votos de eliminaci贸n, se suma un segmento rojo, hacia la derecha. Eso m谩s algo de aleatoriedad para darle una apariencia org谩nica, similar a un 谩rbol. Se ve as铆:

Notabilia, 驴qu茅 p谩ginas en Wikipedia sobreviven al criterio de les editores? Fuente: Moritz Stefaner, Dario Taraborelli &amp; Giovanni Luca Ciampaglia.
Notabilia, 驴qu茅 p谩ginas en Wikipedia sobreviven al criterio de les editores? Fuente: Moritz Stefaner, Dario Taraborelli & Giovanni Luca Ciampaglia.

El consenso (o la falta de 茅ste) es expresado en la visualizaci贸n.

Organic Visualization of Document Evolution #

La evoluci贸n mostrada en las visualizaciones anteriores trabaja con versiones de un texto. Sin embargo, no todo el texto es versionado, y el versionamiento no tiene la capacidad de capturar el proceso mental de la escritura, que es m谩s bien expresado en cada uno de los cambios at贸micos que hacemos en el texto, construido tecleo a tecleo, con cambios de posiciones del cursor. La siguiente visualizaci贸n propone visualizar ese proceso utilizando la met谩fora de un 谩rbol de eventos, donde la marca es un conjunto de polil铆neas (las ramas), que contienen secuencias de eventos. Cuando hay una bifurcaci贸n en el texto, como puede ser un cambio de posici贸n o la eliminaci贸n de una secci贸n, se crean ramas nuevas. La visualizaci贸n se ve as铆:

Visualizaci贸n org谩nica de la evoluci贸n de un texto. Fuente: Ignacio P茅rez-Messina, Claudio Guti茅rrez, Eduardo Graells-Garrido, Organic Visualization of Document Evolution.
Visualizaci贸n org谩nica de la evoluci贸n de un texto. Fuente: Ignacio P茅rez-Messina, Claudio Guti茅rrez, Eduardo Graells-Garrido, Organic Visualization of Document Evolution.

El ejemplo visualiza el proceso de escritura de un informe universitario registrado en Google Docs. La visualizaci贸n expresa como el texto se va estructurando a medida que se escribe. Al incluir incluso el texto que fue eliminado del documento final, queda de manifiesto que hasta lo borrado deja una huella en el resultado.

Conclusiones #

En esta unidad hemos revisado algunas visualizaciones de texto conocidas. Nos hemos dado cuenta que en su mayor铆a utilizan las codificaciones visuales que hemos visto en las unidades anteriores, pero teniendo un paso extra que permite darle al texto la estructura necesaria para poder ser visualizado, ya que en s铆 mismo el texto no tiene una estructura definida como s铆 la tienen los otros datasets. En un curso de visualizaci贸n avanzado estas visualizaciones se profundizar铆an en funci贸n de las tareas que realizan y de como se eval煤an sus resultados.

Existen otras 谩reas en las cuales tambi茅n se usa texto. Una de ellas es la secuenciaci贸n gen茅tica. Sin embargo, all铆 el texto es visto como s铆mbolo m谩s que como un tipo de dato no estructurado, por ello, lo hemos dejado fuera de esta unidad.

Lecturas Recomendadas #