Este post es la versión escrita de mi charla en las Noches Nerd de Santiago, de abril de 2018.

Santiago es una ciudad increíble. Si no me creen, vean esta imagen de Rodrigo Ocharán, alias rocco.jpg en Instagram:

Fuente: rocco.jpg

Fuente: rocco.jpg

Fuente: rocco.jpg

Ahora bien, el título de este post habla de las ciudades ocultas en Santiago. No me refiero a ciudades subterráneas o a rincones escondidos, ni a realidades paralelas, sino, a visiones grupales de la ciudad.

¿Para qué calcular esas visiones?¿Por qué buscarlas?¿Cómo hacerlo? Suena directamente como una problemática de investigación, pero lo cierto es que existen problemas en la ciudad con relación a la movilidad de las personas, y tener maneras de comprender mejor esa movilidad puede ser un aporte concreto a mejorar la calidad de vida.

Fuente: Iván Poduje.

Fuente: Iván Poduje.

Fuente: Iván Poduje.

Pero, aunque solemos quejarnos del sistema de transportes Transantiago, todo el sistema está en problemas:

Fuente: Radio Portales

Fuente: Radio Portales

Fuente: Radio Portales

El tema que presento, las ciudades ocultas, será el final de un recorrido por el que los llevaré hoy. Pasaremos por un rápido análisis de Santiago, buscando una perspectiva humana de la ciudad, la que nos llevará a las maneras tradicionales de medir y observar la ciudad. Luego veremos cómo la Ciencia de Datos nos puede apoyar, particularmente considerando dos tipos de fuentes de datos no tradicionales: registros de facturación de telefonía y datos cartográficos libres. Con ello construiremos nuestras ciudades ocultas, que después utilizaremos para responder una pregunta crítica en la ciudad: ¿Cuántos habitantes usan cada modo de transporte?

Imaginen: si pudiésemos responder esa pregunta hoy, tendríamos (como ciudad) más opciones a la hora de gestionar y planificar nuestro transporte. Suena increíble, pero responder esa pregunta no requiere esperar al futuro. Lo podemos hacer hoy.

En este post les contaré cómo lo hacemos a través de las ciudades ocultas (o latentes) en Santiago.

¿Cuántos Santiagos hay?

Muchos ya saben que hay por lo menos dos, coloquialmente llamados arriba y abajo de Plaza Italia:

Pero también existe arriba y abajo del Río Mapocho, como lo muestra la cobertura actual del Metro de Santiago:

O, como ha propuesto recientemente el urbanista Iván Poduje, hay por lo menos cinco Santiagos:

Fuente: Iván Poduje.

Fuente: Iván Poduje.

Fuente: Iván Poduje.

Sin embargo, algo falta en estas caracterizaciones: poner a la persona como origen de la ciudad.

Una Visión Humana: La Propuesta de Kevin Lynch

Kevin Lynch, urbanista del MIT, en su libro La Imagen de la Ciudad definió que nuestros sentidos experimentan la ciudad en secuencia, y por ende, cada persona tiene su propia imagen de la ciudad, que almacenamos en un mapa mental.

La ciudad no es la que muestran los mapas topográficos o políticos, sino que es la obra de arte que construyen nuestros sentidos a través de imágenes, sonidos, olores, texturas, y recorridos en nuestra memoria. Y la calidad de una ciudad variará en función de como podemos recordarla y modelarla en nuestros mapas mentales.

Por tanto, hay tantas ciudades como habitantes.

El problema es que encontrarlas es prácticamente imposible.

Midiendo y Observando la Ciudad

Tradicionalmente, la manera de medir e interpretar la ciudad es a través de encuestas. De hecho, Kevin Lynch hizo eso.

En Santiago, cada diez años se realiza la Encuesta Origen-Destino, donde se les pregunta a los habitantes de un hogar cuáles fueron los viajes que hicieron el día anterior, incluyendo origen, destino, propósito del viaje, modos de viaje utilizados, tiempo de inicio, y otras variables asociadas a los viajes y a las características socio-demográficas de las personas.

Equipo de encuestadores en la encuesta de viajes de Santiago, 2012. Fuente: Ministerio de Transportes y Telecomunicaciones.

Equipo de encuestadores en la encuesta de viajes de Santiago, 2012. Fuente: Ministerio de Transportes y Telecomunicaciones.

Equipo de encuestadores en la encuesta de viajes de Santiago, 2012. Fuente: Ministerio de Transportes y Telecomunicaciones.

En su última edición, el año 2012, se encuestó a 18 mil hogares, en un proceso de recolección de datos que tomó cerca de un año y medio. Luego de otro período extenso de análisis, el resultado es un conjunto de “días promedio” en la ciudad, para días laborales/no laborales, y estivales/no estivales.

Fuente: Wikimedia Commons.

Fuente: Wikimedia Commons.

Fuente: Wikimedia Commons.

El problema de esto es que la ciudad crece y cambia más rápido de lo que este ciclo de encuestas es capaz de capturar. Esencialmente, la encuesta es una foto corrida de una ciudad que va cambiando su infraestructura y su población.

Por ejemplo, en los últimos dos años hemos tenido inauguraciones de líneas de tren (Metrotren de Nos), metro (línea 6), túneles y autopistas (Kennedy), cambios en los recorridos y operadores de Transantiago, la venta de automóviles se dispara, etc. A pesar de eso, la encuesta es usada para gestión y planificación hasta que haya una nueva encuesta. Simplemente, no hay otros datos que sean tan completos.

A eso debemos sumar que no existen días promedio. Siempre pasa algo que hace cambiar los flujos dentro de la ciudad.

Entonces, ¿cómo podemos estudiar la movilidad de las personas en la ciudad? Nuestra propuesta es hacerlo colaborando con la ciencia de datos.

Ciencia de Datos

La Ciencia de Datos es un área transdisciplinaria que mezcla herramientas, conceptos y métodos de otras disciplinas, como informática, computación, administración, comunicación, sociología y estadística, con el fin de resolver problemas que van más allá de los límites que puede alcanzan una disciplina específica.

Fuente: Lonbing Cao.

Fuente: Lonbing Cao.

Fuente: Lonbing Cao.

Quienes hacen Data Science son nerds de diferentes disciplinas que ponen énfasis en tres habilidades: pensamiento computacional, modelamiento y estadística, y comunicación (¡en ambas direcciones! Se requiere contar historias pero también saber escuchar).

Una característica de la ciencia de datos es que suele utilizar registros que las personas dejan día a día para estudiar su comportamiento. Seguramente han dejado por lo menos un registro hoy en alguna de las aplicaciones o servicios mostrados en la siguiente imagen:

A veces no es necesario preguntarle a alguien si ha viajado y por qué lo hizo, porque se puede inferir a partir de esos registros. Y, como humanos, somos mucho más propensos a dejar información por donde pasamos de lo que estamos conscientes.

Datos de Telefonía Móvil

Los registros que analizamos en nuestro estudio provienen de registros de facturación de telefonía móvil, debido a una colaboración’entre el Instituto de Data Science de la Universidad del Desarrollo, donde soy profesor, y Telefónica I+D.

Cuando uno menciona que utiliza datos de telefonía, vienen a la mente imágenes sacadas de películas, donde se identifica a una persona y su posición actual en tiempo real a partir de su número de teléfono. Afortunadamente eso es ficción.

Los datos de telefonía se utilizan hace más de una década para entender el comportamiento de las personas. Por ejemplo, el 2008 se publicó este artículo donde participó el chileno César Hidalgo, que mostraba cómo existían leyes físicas que modelan nuestra movilidad.

Sin embargo, hace diez años los teléfonos no estaban tan insertos en nuestra vida diaria como hoy. Ya no solamente tenemos un teléfono, sino que prácticamente experimentamos la vida a través de él. Si no me creen, vean la siguiente imagen:

Fuente: Wikimedia Commons.

Fuente: Wikimedia Commons.

Fuente: Wikimedia Commons.

Hoy, en Chile hay más simcards (chips) que personas, ya que las máquinas también usan sims: los buses del Transantiago, las máquinas de pago con tarjeta, las estaciones de bicicletas públicas, etc.

En el Instituto de Data Science trabajamos con registros de facturación. Son eventos generados y registrados por la red telefónica que se utilizan para cobrar. Tienen la siguiente estructura:

  • Identificador anonimizado de dispositivo.
  • Torre a la que el dispositivo estuvo conectado a la hora de facturar.
  • Evento que se está facturando (una llamada, descarga de cierta cantidad de megabytes).
  • Día y hora en que se está facturando, que no coincide del todo con el instante en que el dispositivo hizo las actividades que se están cobrando. Hay un margen de error aproximado de 15 a 30 minutos.

Estos datos permiten, entonces, conocer la posición aproximada de un dispositivo a una hora aproximada. El siguiente gráfico ilustra esto:

Fuente: Y.A. de Montoye. A representa los registros, y B y C representa distintos niveles de estudio. En nuestro caso, trabajamos con una granularidad similar a B.

Fuente: Y.A. de Montoye. A representa los registros, y B y C representa distintos niveles de estudio. En nuestro caso, trabajamos con una granularidad similar a B.

Fuente: Y.A. de Montoye. A representa los registros, y B y C representa distintos niveles de estudio. En nuestro caso, trabajamos con una granularidad similar a B.

En nuestra experiencia, este tipo de registros se generan con una periodicidad entre 15 y 30 minutos, lo cual no permite identificar aspectos de los viajes como la velocidad. El hecho de trabajar con torres tampoco permite identificar el punto específico de origen o destino. Sin embargo, como veremos hoy, hay otras cosas que se pueden hacer, con resultados interesantes.

Complementando con Cartografía Urbana

Los datos de telefonía no incluyen contexto urbano, más que algunos meta-datos asociados a las torres. Por ejemplo, si el metro tiene cobertura subterránea es porque existen torres especiales instaladas dentro de su infraestructura. Conocemos eso. Lo mismo para los malls: tienen torres específicas instaladas dentro. Fuera de eso no hay mucho más que sepamos sobre las torres.

Para tener más información, y saber si una torre cubre áreas verdes, cubre un barrio comercial, o si está instalada cerca de una autopista, un corredor de buses, o de los viaductos elevados del metro, necesitamos datos urbanos. Los obtenemos gracias a OpenStreetMap, una plataforma de datos cartográficos y urbanos abierta, en la que cualquier persona puede colaborar. Es como Wikipedia, pero para mapas; permite generar servicios como Google Maps, pero libres. Funciona bien y está al día. Es posible bajar el estado actual de su base de datos y procesarlo en entornos de programación o bien utilizando herramientas GIS. Por ejemplo, hicimos un programa que extrajo parte de la infraestructura vial de la ciudad, particularmente autopistas y calles principales, así como la red de metro, identificando metro subterráneo y metro sobre superficie:

Arriba, Izquierda: distribución de torres de Telefonía. Arriba, Derecha: red de calles principales y autopistas. Abajo, Izquierda: red de metro el año que estamos estudiando (2016), separando metro en superficie de metro subterráneo. Abajo, Derecha: torres de Telefonía con cercanía a estaciones de metro y autopistas.

Arriba, Izquierda: distribución de torres de Telefonía. Arriba, Derecha: red de calles principales y autopistas. Abajo, Izquierda: red de metro el año que estamos estudiando (2016), separando metro en superficie de metro subterráneo. Abajo, Derecha: torres de Telefonía con cercanía a estaciones de metro y autopistas.

Arriba, Izquierda: distribución de torres de Telefonía. Arriba, Derecha: red de calles principales y autopistas. Abajo, Izquierda: red de metro el año que estamos estudiando (2016), separando metro en superficie de metro subterráneo. Abajo, Derecha: torres de Telefonía con cercanía a estaciones de metro y autopistas.

Esto nos ayudará más adelante, cuando interpretemos los resultados y el significado de las ciudades ocultas.

Ciudades Ocultas o Ciudades Latentes

Repasemos lo que tenemos hasta ahora:

  • Cada persona tiene su propia visión de la ciudad, construida por la secuencia de lugares que visitamos, y lo que nuestros sentidos perciben en cada uno de esos lugares.
  • Los registros de facturación de Telefonía permiten tener una aproximación de esas secuencias, al menos en términos de tiempo y espacio, y, en conjunto con OpenStreetMap, del contexto urbano por el que se entrelazan.

Hace un par de años hice un algoritmo para tomar esos datos y convertirlos en viajes, similares a los que reporta la encuesta origen-destino, pero sin toda la información socio-demográfica asociada, puesto que no son parte de los datos de telefonía. Luego, junto a Diego Caro implementamos métodos para identificar el propósito de los viajes, y desarrollamos un método para agrupar esos recorridos a través del clustering. Cada uno de esos grupos es lo que llamamos Ciudad Oculta, o Ciudad Latente — proveniente del hecho que el algoritmo encuentra relaciones ocultas entre los datos, a través de la co-ocurrencia de lugares o torres en los recorridos que hace cada persona. Con Denis Parra (PUC), hemos colaborado en formalizar y evaluar los pasos realizados en el análisis y clusterización. Particularmente, utilizamos un algoritmo llamado Non-Negative Matrix Factorization (NMF). La NMF recibe como parámetro el número de dimensiones latentes o componentes a calcular. Lo que definimos como ciudad oculta es precisamente cada una de esas componentes.

Hemos experimentado con diversos números de ciudades, desde 2 hasta 32. Encontramos que ocho es un número interesante por temas de interpretabilidad y escala del análisis. Éstas son las ocho ciudades ocultas en Santiago que encontramos:

Cada burbuja púrpura representa a una torre de telefonía, y su tamaño representa su importancia o asociación a cada ciudad oculta. Es posible que una torre esté asociada a múltiples ciudades, dado el flujo de personas a través de ellas.

Cada burbuja púrpura representa a una torre de telefonía, y su tamaño representa su importancia o asociación a cada ciudad oculta. Es posible que una torre esté asociada a múltiples ciudades, dado el flujo de personas a través de ellas.

Cada burbuja púrpura representa a una torre de telefonía, y su tamaño representa su importancia o asociación a cada ciudad oculta. Es posible que una torre esté asociada a múltiples ciudades, dado el flujo de personas a través de ellas.

Dentro de estas ciudades ocultas hay algunas que destacan.

  • La Ciudad 0 (en computación el punto de partida suele ser cero, no 1 😛) es la que esperábamos encontrar: el sector de Santiago considerado como “arriba de plaza Italia” pero que en realidad comienza en Santiago Centro.
  • La Ciudad 4 que representa a varias líneas de metro y sus cercanías, lo que muestra que sí había una ciudad subterránea después de todo.
  • La Ciudad 6 mezcla los conceptos vistos en las dos ciudades anteriores: muestra claramente algunas comunas del sur-poniente de la ciudad, como San Bernardo, pero también muestra dónde trabajan sus habitantes: en Santiago Centro y el eje Providencia. Además, ambos lugares — San Bernardo y ejes centrales — están conectados a través de dos caminos identificables: una autopista y la Gran Avenida, donde está la línea 2 del metro.

Considerando lo anterior, el algoritmo encuentra dos tipos de fenómenos, que pueden estar (o no) mezclados: la distancia métrica, en el que dos lugares pertenecen a la misma ciudad si están cerca y son visitados por las mismas personas; y la distancia topológica, en el que dos lugares pertenecen a la misma ciudad son visitados por las mismas personas, que eligen (si es que), los mismos medios de transporte, dándole importancia a la conectividad y accesibilidad más que a la distancia métrica.

Podemos utilizar estos resultados para analizar cómo la gente se mueve en la ciudad, y cuáles modos de transporte utiliza: eso es lo que decíamos que necesitábamos al comienzo de este post. Sin embargo, de manera manual debemos elegir las ciudades ocultas que utilizaremos para ello.

Hasta este punto, junto a Diego y Denis hemos publicado un artículo científico. Lo pueden encontrar aquí. En l puedes encontrar una discusión más extensa respecto a la interpretación de las ciudades ocultas.

Lo que haremos en el siguiente paso es enseñarle a las máquinas a ver lo mismo que hemos visto nosotros.

Partición Modal: Ciudades Ocultas Guiadas

El algoritmo NMF que utilizamos recibe como parámetro el número de ciudades ocultas a identificar. Es un algoritmo de aprendizaje no-supervisado, donde lo único que le indicamos es el número de clústeres a encontrar — el algoritmo se las arregla para lograr agrupar y separar los datos. El siguiente paso es guiarlo en la construcción de las ciudades, en lo que llamamos aprendizaje semi-supervisado.

Este tipo de aprendizaje consiste en entregarle al algoritmo, además de los datos y del parámetro de cantidad de grupos, un listado de ejemplos pre-categorizados (o, en lenguaje coloquial, etiquetados). Por ejemplo, de las trazas de movilidad de cien dispositivos, podemos mirar diez manualmente y decirle a qué ciudades pertenece cada uno de esos diez.

Hay trazas de movilidad que son fáciles de etiquetar: las que pasan por metro subterráneo, ya que esas torres son identificables directamente. Pero, ¿cómo hacerlo para las demás? Responderemos esta pregunta utilizando los datos que extrajimos de OpenStreetMap más algunos supuestos sobre la ciudad. Con ellos podemos saber si una torre está instalada cerca de una calle principal, de una autopista, de una calle secundaria, del metro sobre superficie, de un corredor de buses, en una calle peatonal, etc. Entonces, podemos utilizar esa información para decidir si etiquetar o no una traza de movilidad.

Necesitaremos suponer cosas puesto que tendremos muchas conexiones en calles principales, que por algo son arterias principales: todos debemos pasar en algún momento por ellas.

Los mapas no muestran el uso desigual del espacio

La suposición que haremos es que si una persona está viajando, y está conectada a una torre en una calle principal, entonces lo hace en un bus. ¿Por qué?

Fuente: Ciudad Pedestre, Rodrigo Díaz.

Fuente: Ciudad Pedestre, Rodrigo Díaz.

Fuente: Ciudad Pedestre, Rodrigo Díaz.

En la imagen, que representa vehículos y sus ocupantes en una calle principal de Santiago, vemos que el uso del espacio es desigual en las calles principales. Incluso si hay congestión, y por ende, muchos autos, ¿dónde hay más gente?

En las micros.

Por ende, la probabilidad de que una persona ande en bus dadas esas condiciones son mayores.

Aplicamos la suposición inversa si la persona está conectada a una torre en una calle secundaria. Hay buses, sobretodo alimentadores, que pasan por esas calles, pero en ellas pasan más vehículos particulares y taxis. Es más, con el uso de aplicaciones como Waze, es más frecuente ver vehículos en calles interiores que antes.

De este modo tenemos una manera de etiquetar algunas de las trazas de movilidad que disponemos. Aún queda otro paso más: determinar el número de ciudades a estudiar.

Tres Ciudades Ocultas: Una por cada modo (mayor) de transporte

El último paso es identificar el número de ciudades ocultas que queremos. Como nos enfocaremos en transporte, elegimos tres: una por cada alternativa mayor (metro, busauto).

Si ejecutamos el algoritmo considerando todo lo anterior, el resultado es el siguiente:

Vemos que la Ciudad 0 (metro) reconstruyó totalmente la red de metro y sus cercanías. Que la Ciudad 1 (buses) cubre buena parte de la ciudad, y que Ciudad 2 (autos) cubre el resto de manera más dispersa. Es lo que esperaríamos dado el etiquetado que hicimos.

Mencioné que una torre puede pertenecer a varias ciudades ocultas. Lo mismo sucede para las personas: hay algunas que deben moverse de una ciudad a otra, en nuestro primer análisis, o que pertenecen a más de una de las ciudades ocultas con respecto al transporte. Eso tiene la interpretación del transporte intermodal, en el que una persona utiliza diversos modos de transporte en un mismo viaje.

Visualicemos cómo las personas se ven si graficamos las ciudades a las que pertenecen:

En este gráfico cada persona del estudio es una línea vertical que tiene tres segmentos, uno por cada ciudad. Así, las ciudades representan las filas del gráfico; y las personas, las columnas. El color de cada segmento representa su asociación con cada modo de transporte, que va desde cero (no pertenece a esa ciudad oculta) a 1 (utiliza exclusivamente ese modo de transporte). Las personas han sido dispuestas en el gráfico de modo que sea directo interpretar la proporción de éstas que utiliza cada modo de transporte.

Esto es lo que hemos trabajado hasta hoy. Con este resultado, podemos responder la pregunta inicial del post: ¿cuánta gente utiliza cada modo de transporte? Y nuestra respuesta incluirá cuántas personas combinan distintos modos, gracias a este uso de las ciudades ocultas.

Personas expertas del área nos han dicho que el método es interpretable, y, dados los datos que utiliza, se puede aplicar de manera dinámica a la ciudad. En ese aspecto, nuestro trabajo entrega un punto de partida para entender y analizar la situación actual de la ciudad, y así apoyar la toma de decisiones en pos de mejorar la calidad de vida de las personas.

El Futuro está en la Colaboración

Cuando presento los resultados de nuestro trabajo hago hincapié en que la ciencia de datos no busca reemplazar a las disciplinas tradicionales. Para lograr colaborar hemos interactuado con personas de distintos ámbitos: academia, industria, instituciones públicas, y ciudadanía. La siguiente imagen es de un workshop de ideación que hicimos en la Plaza de la Innovación de la Universidad del Desarrollo:

¡Saludos a todos quienes aparecen en esta foto! Fue un workshop organizado por el Instituto de Data Science y el área de UX de Telefónica I+D.

¡Saludos a todos quienes aparecen en esta foto! Fue un workshop organizado por el Instituto de Data Science y el área de UX de Telefónica I+D.

¡Saludos a todos quienes aparecen en esta foto! Fue un workshop organizado por el Instituto de Data Science y el área de UX de Telefónica I+D.

Usualmente son otras disciplinas, no la Ciencia de Datos, las que tienen las preguntas relevantes para la sociedad. De hecho, el punto de partida que inspiró el concepto proviene del urbanismo. Nos hemos basado en conceptos de Kevin Lynch en este estudio, y aunque no lo mencioné, también de Jane Jacobs y Charles Montgomery.

Nosotros brindamos herramientas y una manera de utilizar otras fuentes de datos para responderlas a niveles que no se han visto antes: para disponer de mucho más que una foto de un sistema en constante movimiento, y así mejorar la calidad de vida de todes en nuestra ciudad.

Con lo anterior concluí la charla, pero quiero comentar dos preguntas que recibí.

Pregunta 1: Ética

El gran Eduardo Díaz, autor de La Naturaleza del Software, preguntó respecto a la ética en los procesos e instituciones que realizan Data Science, y que tienen acceso a este nivel de datos.

Creo que la ética es importante y que, lamentablemente, no suele ser parte de la formación en ingeniería, que, aún siendo solamente una parte de Data Science, en Chile al menos está muy asociada, puesto que son las escuelas de ingeniería las que están impulsando estudios y colaboraciones con empresas.

El hecho de que hagamos estos experimentos de manera abierta, tanto a nivel académico, publicando nuestros resultados de investigación y nuestros algoritmos, como a nivel público, divulgando resultados y metodologías, muestra que queremos ser transparentes.

En el caso de la empresa con la que colaboramos (Telefónica), la privacidad de sus clientes es primordial. La empresa toma todas las medidas posibles para evitar fugas de información. Por ejemplo, nosotros trabajamos solamente con registros anonimizados. Y los datos no pueden salir de los servidores de la empresa dispuestos especialmente para realizar análisis de ellos.

¿Se puede hacer mal uso de estas técnicas? Sí, pero es un riesgo que se debe correr si queremos avanzar en esta dirección. El hecho de que seamos abiertos en lo que hacemos es una manera de mostrar que las personas también tienen un rol: el de estar al tanto de lo que se hace con sus datos, y que ellas son quienes tienen (o deben tener) el control de éstos.

Pregunta 2: Sectores Rurales

Otra pregunta del público fue respecto a cómo nuestro estudio incluye (si es que) a las zonas rurales, considerando que el ejemplo de los 5 Santiagos de Iván Poduje incluye un Santiago semi-rural.

A decir verdad nos hemos enfocado en el área urbana de Santiago por ser la más problemática y, al mismo tiempo, ser la más rica en densidad de torres de Telefonía. En áreas rurales suele haber menos torres, puesto que la población es menor, y también porque la extensión de cobertura es mayor. Por otro lado, existen áreas urbanas delimitadas y documentadas, y eso nos permite basarnos en el criterio de instituciones oficiales para definir qué estudiar y dónde.

Más adelante buscaremos maneras de extender esto a las zonas rurales, y por qué no, a todo Chile. El hecho de que existan conurbaciones, también con problemas de transporte, vuelve relevante el problema de encontrar las ciudades ocultas del país.

Con esto termino el post. Fue mi primera experiencia dando una charla al público general, por lo que si hay cosas que no quedaron claras o que te gustaría detallar, no dudes en dejarme un comentario. Lo responderé con gusto. ¡Hasta pronto!