Ciencia de datos geográficos
La ciencia de datos permite obtener valor de los datos (genera insights, define nuevas preguntas, apoya la toma de decisiones, entre otras maneras) pero, ¿qué desafíos enfrenta el o la data scientist cuando los datos tienen componentes geográficas? Muchas veces los modelos o métodos que se emplean tienen supuestos que la geografía rompe, como la autocorrelación espacial. En este curso haremos un recorrido práctico construyendo un proyecto de ciencia de datos que incorpora la componente geográfica en cada etapa: desde el planteamiento del problema hasta la transferencia de los resultados.
Cronograma
| Semana | Clase 1 | Clase 2 |
|---|---|---|
| 1 | Introducción a GDS: qué distingue a la ciencia de datos geográficos de la ingeniería y la exploración de datos, cómo las trazas digitales abren preguntas urbanas que antes eran inaccesibles y qué trade-offs introducen respecto a los datos tradicionales [slides] | Configurar el entorno, cargar datasets del curso, producir un primer mapa de la RM [código] |
| 2 | Geografía, cartografía y espacialidad: por qué la posición en el espacio no es solo un atributo más, cómo la elección del tipo de mapa y la proyección cartográfica cambia lo que se puede leer en los datos, y cómo representar las relaciones espaciales en los datos [slides] | Explorar proyecciones, mapa de burbujas, red de vecindad espacial [código] |
| 3 | Planteamiento de proyectos: cómo estructurar una propuesta que parta del problema y no de la solución, qué se puede y qué no se puede responder con los datasets disponibles, y la diferencia entre iterar por aprendizaje e iterar por falta de dirección [slides] | Preparación de Hito 1: Análisis de datos DTPM [código] |
| 4 | Hito 1: definición del proyecto y datos | Feriado |
| 5 | Análisis exploratorio espacial: cómo medir si un fenómeno está espacialmente concentrado o disperso (Moran’s I), cómo identificar qué zonas específicas forman parte de esa concentración (LISA), y qué significa que un resultado sea estadísticamente significativo en este contexto [slides] | Análisis exploratorio de datos del proyecto con componente espacial |
| 6 | Regresión: cómo incorporar la autocorrelación espacial en la especificación de un modelo (Spatial Lag y Spatial Error), coeficientes que varían con la geografía (GWR), y relaciones geográficas medidas con el modelo de gravedad | Ajustar un modelo de regresión sobre el proyecto |
| 7 | XGBoost con variables geográficas y SHAP: modelo de clasificación de paradigma gradient boosting con datos geográficos complementado con interpretabilidad de la clasificación | Aplicar XGBoost para clasificación |
| 8 | Métodos gaussianos para Machine Learning espacial: interpolación espacial con estimación de incertidumbre | Kriging con datos del proyecto |
| 9 | Simulated Annealing para asignación espacial: problema de asignación de datos censales | Hito 2: análisis exploratorio de los datos |
| 10 | Redes urbanas: la red de calles como grafo en el que calcularemos estructura topológica, centralidad y fragmentación/resiliencia | Análisis de redes urbanas del proyecto y uso de OpenStreetMap |
| 11 | Flujos OD y accesibilidad urbana: matrices origen-destino y accesibilidad | Construir la matriz OD del proyecto, visualizar flujos con pydeck |
| 12 | Clustering espacial: por qué los métodos de clustering clásicos producen grupos geográficamente incoherentes, cómo DBSCAN y HDBSCAN identifican concentraciones sin asumir su número ni su forma, y cómo SKATER garantiza que los grupos resultantes sean espacialmente contiguos |
Aplicar clustering espacial sobre los datos del proyecto e interpretar resultados |
| 13 | Análisis espacio-temporal: cómo representar y comparar la distribución de un fenómeno en distintos momentos | Evaluar una intervención urbana |
| 14 | Ética, sesgos y diferencias: dónde se introducen sesgos en cada etapa del pipeline y cómo documentarlos, por qué los datos de movilidad tienden a invisibilizar ciertos grupos (género, edad, discapacidad), y qué responsabilidad tiene el o la científica de datos frente a los resultados que produce | Hito 3: insights con componente espacial |
| 15 | Transferencia y adopción: por qué un proyecto de GDS no termina con el análisis sino cuando la contraparte lo incorpora a su práctica, cómo adaptar el registro y el formato según la audiencia, y qué condiciones técnicas hacen posible esa adopción | Construcción de producto demostrativo de los resultados del proyecto |
Repositorio
Disponible en https://github.com/PLUMAS-research/gds-course-materials