Saltar al contenido

Ciencia de datos geográficos

Ilustración de Un capitán de quince años, de Julio Verne. En este curso compartiremos y discutiremos mapas, muchos mapas. Fuente: WikiCommons.

La ciencia de datos permite obtener valor de los datos (genera insights, define nuevas preguntas, apoya la toma de decisiones, entre otras maneras) pero, ¿qué desafíos enfrenta el o la data scientist cuando los datos tienen componentes geográficas? Muchas veces los modelos o métodos que se emplean tienen supuestos que la geografía rompe, como la autocorrelación espacial. En este curso haremos un recorrido práctico construyendo un proyecto de ciencia de datos que incorpora la componente geográfica en cada etapa: desde el planteamiento del problema hasta la transferencia de los resultados.

Cronograma

Semana Clase 1 Clase 2
1 Introducción a GDS: qué distingue a la ciencia de datos geográficos de la ingeniería y la exploración de datos, cómo las trazas digitales abren preguntas urbanas que antes eran inaccesibles y qué trade-offs introducen respecto a los datos tradicionales [slides] Configurar el entorno, cargar datasets del curso, producir un primer mapa de la RM [código]
2 Geografía, cartografía y espacialidad: por qué la posición en el espacio no es solo un atributo más, cómo la elección del tipo de mapa y la proyección cartográfica cambia lo que se puede leer en los datos, y cómo representar las relaciones espaciales en los datos [slides] Explorar proyecciones, mapa de burbujas, red de vecindad espacial [código]
3 Planteamiento de proyectos: cómo estructurar una propuesta que parta del problema y no de la solución, qué se puede y qué no se puede responder con los datasets disponibles, y la diferencia entre iterar por aprendizaje e iterar por falta de dirección [slides] Preparación de Hito 1: Análisis de datos DTPM [código]
4 Hito 1: definición del proyecto y datos Feriado
5 Análisis exploratorio espacial: cómo medir si un fenómeno está espacialmente concentrado o disperso (Moran’s I), cómo identificar qué zonas específicas forman parte de esa concentración (LISA), y qué significa que un resultado sea estadísticamente significativo en este contexto [slides] Análisis exploratorio de datos del proyecto con componente espacial
6 Regresión: cómo incorporar la autocorrelación espacial en la especificación de un modelo (Spatial Lag y Spatial Error), coeficientes que varían con la geografía (GWR), y relaciones geográficas medidas con el modelo de gravedad Ajustar un modelo de regresión sobre el proyecto
7 XGBoost con variables geográficas y SHAP: modelo de clasificación de paradigma gradient boosting con datos geográficos complementado con interpretabilidad de la clasificación Aplicar XGBoost para clasificación
8 Métodos gaussianos para Machine Learning espacial: interpolación espacial con estimación de incertidumbre Kriging con datos del proyecto
9 Simulated Annealing para asignación espacial: problema de asignación de datos censales Hito 2: análisis exploratorio de los datos
10 Redes urbanas: la red de calles como grafo en el que calcularemos estructura topológica, centralidad y fragmentación/resiliencia Análisis de redes urbanas del proyecto y uso de OpenStreetMap
11 Flujos OD y accesibilidad urbana: matrices origen-destino y accesibilidad Construir la matriz OD del proyecto, visualizar flujos con pydeck
12 Clustering espacial: por qué los métodos de clustering clásicos producen grupos geográficamente incoherentes, cómo DBSCAN y HDBSCAN identifican concentraciones sin asumir su número ni su forma, y cómo SKATER garantiza que los grupos resultantes sean espacialmente contiguos Aplicar clustering espacial sobre los datos del proyecto e interpretar resultados
13 Análisis espacio-temporal: cómo representar y comparar la distribución de un fenómeno en distintos momentos Evaluar una intervención urbana
14 Ética, sesgos y diferencias: dónde se introducen sesgos en cada etapa del pipeline y cómo documentarlos, por qué los datos de movilidad tienden a invisibilizar ciertos grupos (género, edad, discapacidad), y qué responsabilidad tiene el o la científica de datos frente a los resultados que produce Hito 3: insights con componente espacial
15 Transferencia y adopción: por qué un proyecto de GDS no termina con el análisis sino cuando la contraparte lo incorpora a su práctica, cómo adaptar el registro y el formato según la audiencia, y qué condiciones técnicas hacen posible esa adopción Construcción de producto demostrativo de los resultados del proyecto

Repositorio

Disponible en https://github.com/PLUMAS-research/gds-course-materials

Última actualización