¿Cómo hacer un proyecto de Visualización?
Tabla de contenido
Este post contiene una visión global del proyecto que deben realizar mis estudiantes del curso Visualización de información. Es un curso práctico pero no es técnico, es decir, nos enfocamos en analizar cómo se aplican las herramientas de visualización en casos de estudio reales, pero no enseñamos herramientas específicas. Los ejemplos del curso están implementados en Python (y quizás un par en Javascript) pero la elección de herramientas para el proyecto es libre. ¡Incluso puedes presentar una visualización hecha a mano alzada en una servilleta!
Estructura del proyecto #
Construiremos el proyecto de manera incremental y semi-iterativa. Es incremental porque en cada etapa le agregaremos algo al proyecto. Las etapas son las siguientes:
- Definición del proyecto: aquí definimos qué queremos hacer y cuáles son los insumos con los que contamos.
- Análisis exploratorio de datos: aquí determinamos lo que contienen los datos e iteramos sobre nuestra definición en base a ello.
- Visualización global: creamos una representación visual de los datos que nos permita comprenderlos de manera general. Esto está inspirado en el Information Seeking Mantra que propone que una visualización debe mostrar una vista general primero…
- … y luego tener visualizaciones focalizadas que producen insights.
Cada una de estas etapas es un hito que es presentado en tres minutos ante el curso. Esto impone una restricción temporal: debes contar toda la historia en poco tiempo. Esto quiere decir que debes ensayar la presentación y saber elegir qué decir (y cómo decirlo).
El examen consiste en hacer una infografía. La infografía no se presenta, sino que debe sostenerse por sí misma. Aquí la restricción es espacial, puesto que el formato es limitado.
Veamos cada etapa del proyecto por separado. Nota que algunos conceptos, como insight, serán definidos con profundidad durante el semestre. En este post lo que importa es mostrar la progresión que llevaremos a cabo.
SCP+D] --> B[Hito 1: Análisis exploratorio
5 preguntas] B --> C[Hito 2: Visualización global
Vista general] C --> D[Hito 3: Insights
Visualizaciones focalizadas] D --> E[Examen: Infografía
Comunicación estática] B -.->|Iteración| A C -.->|Retroalimentación| C D -.->|Feedback| E F[3 minutos
presentación] -.->|Restricción temporal| A F -.-> B F -.-> C F -.-> D G[Espacio limitado] -.->|Restricción espacial| E style A fill:#e1f5fe style B fill:#f3e5f5 style C fill:#e8f5e8 style D fill:#fff3e0 style E fill:#ffebee
Hito 0: Definición #
Definir el proyecto implica determinar el problema a resolver y los datos a utilizar. Para esto, haremos uso de una maqueta o template que llamaremos SCP+D:
- Situación: ¿Cuál es el contexto de tu proyecto? La respuesta es el estado actual de las cosas. En esta descripción no hay problemas todavía. Ejemplo: estamos felices en un barquito navegando en el mar ⛵
- Complicación: Dado ese contexto, ¿cuál es un problema o irrupción que debe resolverse? Tener clara la complicación permite identificar el valor que puede aportar el proyecto. Ejemplo: hay una fuga de agua en el barquito 😱
- Propuesta: Considerando ese contexto y complicación, ¿qué propones hacer para resolverlo? La propuesta debe resolver la complicación, no definir una herramienta. No es “hacer una visualización que…”, sino una acción concreta (que, en el caso del curso, será resuelta con visualización). Ejemplos:
- Solicitar rescate/ayuda por radio 📻
- Varar en el primer lugar disponible 🏝️
- Mitigar el problema sacando el agua con baldes 🪣
- Reparar la fuga de agua con las herramientas disponibles 🛠️
- Saltar y nadar 🏊🏊♀️
- Usar el bote salvavidas 🛟
- Aceptar el destino 🐳
- Datos: ¿Cuáles datos utilizarás para llevar a cabo tu propuesta?
Responder estas preguntas no es fácil. Requerirá que iteres las respuestas y veas sus dependencias. Una vez que iteres lo suficiente tu proyecto ya estará definido, ¡felicitaciones!
Hito 1: Análisis exploratorio y descriptivo #
En el hito anterior definimos un proyecto, pero ahora debemos sumergirnos en los datos para saber si contienen suficiente información y variabilidad para llevar a cabo la propuesta. El análisis exploratorio responde: ¿estos datos nos permiten resolver la complicación que identificamos?
Para responder esa pregunta, exploraremos cinco dimensiones de los datos.
- QUÉ: ¿Qué contienen los datos? La respuesta incluye features (columnas), sus extensiones y distribuciones.
- CUÁNDO: ¿Cuáles períodos temporales abarca? Por ejemplo, ¿tienes datos de un año? ¿Son diarios? ¿Tienen hora? ¿Cuál es la distribución diaria? ¿Semanal? ¿Mensual?
- DÓNDE: ¿Cuál es la distribución geográfica de los datos? Por ejemplo, ¿tus datos tienen coordenadas? ¿O tienen áreas administrativas (comunas, regiones, etc.)?
- QUIÉN: ¿Qué grupos de observaciones puedes encontrar en los datos? ¿Están balanceados? Por ejemplo, si trabajas con una encuesta, ¿tienes datos de hombres y mujeres? ¿Cuál es la distribución de sus edades?
- CÓMO: ¿Cómo se relacionan los aspectos anteriores? Por ejemplo, ¿hay correlación entre variables? ¿Hay diferentes distribuciones geográficas para cada grupo de observaciones?
Las respuestas determinarán si tu propuesta está bien encaminada o necesita ajustes (Queda pendiente el POR QUÉ, puesto que es una pregunta de análisis causal. Esa materia está fuera de scope). Por ejemplo, si tu propuesta implica estudiar diferencias etáreas, pero notas que tienes primariamente gente joven, entonces no podrías estudiar esas diferencias. Sin embargo, el análisis exploratorio puede revelar otros patrones interesantes que redefinan una complicación más importante o una propuesta más efectiva. Por eso, aquí podemos iterar la definición del proyecto.
Hito 2: Visualización global #
En este hito diseñaremos una visualización que permita identificar patrones globales, comparar, resumir los datos desde la perspectiva de la tarea a resolver. Esencialmente, si tuvieras que resumir tus datos en una sola visualización, ¿qué mostrarías? Por ej., si tu proyecto usa datos censales, y tienes una tabla donde cada fila es una persona, ¿mostrarías los detalles de cada persona, o definirías una visualización que agrupe de acuerdo a criterios generales?
Esta presentación marca el inicio de la recta final del curso: este es el punto de partida para obtener insights en el siguiente hito. La vista general suele ser punto de partida para definir preguntas específicas que se le harán a los datos, alineadas con el propósito del proyecto.
La retroalimentación de este hito permitirá mejorar la visualización global o incluso reencaminar la propuesta de modo de propiciar insights que aporten más valor en el siguiente hito.
Hito 3: Insights #
Esas preguntas específicas no son generales (como las del hito 1), sino que deben generar insights. Como veremos en el curso, los insights son el conocimiento generado luego de combinar dos fuentes de información: la desplegada en el gráfico y la experiencia o conocimiento de la persona que lo interpreta. Es esta combinación la que aporta valor. Se espera que al menos haya dos insights no triviales en un proyecto.
La revisión de este hito permitirá concretar el valor aportado por los insights.
Examen: Infografía #
El examen consiste en diseñar una infografía que comunique los resultados del proyecto de manera estática. Aquí debe considerarse el feedback del hito anterior. Además, no basta con decir lo mismo que en las presentaciones, puesto que el espacio es sagrado: necesitamos decir más en menos tiempo, menos texto. Queremos que el uso del espacio sea primariamente visual. Poder comunicar de manera estática es importante, ya que muchas veces en tu vida profesional esta será la manera en la que entregarás resultados.
“Si algo puede salir mal, saldrá mal” #
¡Y eso está bien!
Es normal que Murphy nos acompañe durante el desarrollo del proyecto. Por eso lo construimos de manera incremental: para resolver problemas a medida que aparecen y construir una base sólida sobre la cual seguir avanzando.
Es posible que en algún momento surjan problemas insalvables, como:
- Los datos no tienen suficiente resolución para la tarea que propusimos.
- No logramos implementar la visualización global que necesitamos.
- La propuesta tenía un “buen lejos” pero al verla más de cerca y aprender sobre los datos nos dimos cuenta de que no aportaba tanto valor como esperábamos.
En todas las etapas encontraremos dificultades. Si una de estas nos hace pensar que no podremos continuar con el proyecto, es válido detenerse y definir un proyecto nuevo. Así son los proyectos en el “mundo real” también: a medio camino se caen las cosas, o suceden desastres, o simplemente debemos adecuar nuestras expectativas a lo que encontremos durante el semestre. Cambiar de rumbo o “pivotear” siempre está permitido. ¡Lo importante es aportar valor!
(Sí, alguien entregó un proyecto en una servilleta cuando fui profesor en la UDD; y sí, reprobó… no porque fuese una visualización en una servilleta, sino porque era una visualización mal diseñada que no aportó valor)