Propuesta: colaborar con las disciplinas relacionadas con movilidad y comportamiento humano las fuentes de datos y métodos de Data Science / Ciencia de Datos. De este modo podremos resolver problemas que cada disciplina por sí misma se ve limitada en resolver, e informaremos la gestión de la ciudad y las políticas públicas con conocimiento basado en ciencia transdisciplinaria a escala.

Objetivo: generar conocimiento sobre el comportamiento de las personas en espacios de información desde la perspectiva de las trazas digitales. Hacerlo es un desafío porque las trazas digitales, a diferencia de los datos tradicionales, no son generados ni recolectados para efectos de entender la movilidad u otros aspectos de la vida urbana; más bien son un producto derivado de otro objetivo relacionado con las actividades de la entidad que generó los datos.

Enfoque: diseño algoritmos, modelos y visualizaciones para que las personas tomadoras de decisiones y quienes diseñan políticas públicas tengan insumos sobre el comportamiento y necesidades de las personas a una granularidad espacio-temporal. En mi trabajo enfatizo la colaboración con instituciones, la transparencia e interpretabilidad de las herramientas computacionales. También incorporo métodos para identificar y mitigar los sesgos propios de las trazas digitales.

Resultados: he desarrollado colaboraciones exitosas con instituciones públicas (como SECTRA), empresas (como Telefónica) y he obtenido fondos públicos para desarrollar esta área investigación (como FONDECYT). En cifras, soy co-autor de 7 artículos en revistas indexadas, 27 artículos de conferencias con revisión por pares, y 2 solicitudes de patentes. De acuerdo a Google Scholar hay 550+ referencias a mi trabajo, con un Índice-H de 14. La lista completa de mis papers está en Google Scholar.

Proyectos Actuales

IoTwins (2019–Presente). IoTwins es un proyecto europeo H2020 cuyo objetivo es utilizar Digital Twins para optimizar la gestión y planificación de entornos críticos. Dentro del consorcio del proyecto se encuentran Barcelona Supercomputing Center (BSC, mi afiliación) y Futbol Club Barcelona (FCB). Mi rol en el proyecto es generar modelos y predicciones sobre afluencia de personas, tanto en la ciudad como en el estadio más grande de Europa, el Camp Nou. Conoce aquí el estado del proyecto.

A nivel industrial, en IoTwins utilizamos modelos de movilidad y simulación basada en agentes para entender y predecir el comportamiento de las personas, y así desarrollar planes eficientes de seguridad para la transformación on-site de Camp Nou en Nou Camp Nou.

Afluencia en Barcelona: Caracterización por zonas de origen, destino, y conexiones entre lugares.

Afluencia en Barcelona: Caracterización por zonas de origen, destino, y conexiones entre lugares.

Afluencia en Barcelona: Caracterización por zonas de origen, destino, y conexiones entre lugares.

A nivel social, estudiamos los patrones de movilidad y generamos modelos de inferencia para la afluencia en la ciudad, considerando factores demográficos y del entorno urbano vistos a través de las trazas digitales. Colaboramos con el Ayuntamiento de Barcelona para generar conocimiento que informe la gestión y planificación de la ciudad.


RUN-RUN: Inferencia y Visualización de uso de modos de transporte en la ciudad (2015–Presente). Este proyecto tiene como objetivo generar una batería de herramientas para medir y visualizar la movilidad en una ciudad vista desde las trazas digitales de telefonía móvil, particularmente Santiago y otras ciudades de Chile. Lo inicié el 2015 cuando trabajaba en Telefónica I+D, y luego lo continué cuando comencé a trabajar en el Instituto de Data Science de la Universidad del Desarrollo. Allí obtuve financiamiento de CONICYT (hoy ANID) Fondecyt de Iniciación 2018.

El principal objetivo del proyecto es inferir el uso de modo de transporte en una ciudad y permitir que esta inferencia, basada en Machine Learning, sea accesible a personas tomadoras de decisiones. El algoritmo base está publicado en EPJ Data Science y la extensión para trabajo en tiempo semi-real está escribiéndose en este momento.

Ahora bien, los modelos no son todo – es necesario que sean accesibles a través de herramientas basadas en visualización, que exploten el contexto cultural y tecnológico común entre las distintas partes involucradas en el proceso. Para eso diseñamos e implementamos sistemas de analítica visual, como Super-Fly (el código fuente está disponible):

Sistema Super-Fly para visualizar viajes entre orígenes/destinos de Santiago.

Sistema Super-Fly para visualizar viajes entre orígenes/destinos de Santiago.

Sistema Super-Fly para visualizar viajes entre orígenes/destinos de Santiago.

Hemos documentado todo el proceso de diseño e implementación en una metodología para desarrollar proyectos colaborativos de Data Science para la Planificación de Transporte, que involucra stakeholders y data scientists por igual en la creación de soluciones basadas en datos:

Validación colaborativa de resultados de RUN-RUN en conjunto con personas de UDD, INRIA Chile, Metro de Santiago, SECTRA y CEDEUS.

Validación colaborativa de resultados de RUN-RUN en conjunto con personas de UDD, INRIA Chile, Metro de Santiago, SECTRA y CEDEUS.

Validación colaborativa de resultados de RUN-RUN en conjunto con personas de UDD, INRIA Chile, Metro de Santiago, SECTRA y CEDEUS.

El proyecto ha generado dos tesis de Master en Ciencias de la Ingeniería, Ignacio Pérez-Messina, hoy en la Oficina de Datos de la Municipalidad de Independencia, y Paula Vásquez-Henríquez, hoy en Cornershop; dos proyectos de título de Ingeniería Civil Industrial (Valentina Prado y Javiera Narváez), una patente (la primera patente de la Facultad de Ingeniería de la UDD), y varias publicaciones en revistas indexadas de acceso abierto. También ha generado investigaciones derivadas basadas en el análisis de afluencia en la ciudad. Una de ellas es el estudio de cómo la virtualidad de las aplicaciones de teléfonos se vincula con el entorno urbano, en colaboración con Rossano Schifanella.

Como personal técnico del proyecto han participado Vera Sativa, Victor Navarro, Sebastián Aedo, Karina Flores y Catalina Largo.

Sobre el nombre: RUN-RUN es el nombre de un hermoso pajarito, y también el de un juego infantil basado en hilos y discos que giran. No solo me gustan los pajaritos, también el mecanismo del juego permite ejemplificar cómo funciona el algoritmo detrás de la inferencia de modo de viaje.


tsundoku (積ん読): Análisis de Fenómenos Sociales en Twitter (2019–Presente). Desde mi tesis doctoral defendida el 2015 que he trabajado con Twitter para entender cómo nos relacionamos y expresamos. Con el pasar del tiempo noté que necesitaba una base común de trabajo para los distintos proyectos, ya que estaba acumulando datos de Twitter sin tener una forma escalable de analizarlos. Como consecuencia, estaba acaparando datos sin extraerles valor (la palabra japonesa tsundoku se refiere a quienes compran libros sin leerlos después).

El uso más reciente de este proyecto es el análisis de la discusión sobre el plebiscito constitucional en Chile en Octubre de 2020, junto a Ricardo Baeza-Yates, donde estudiamos qué caracterizaba las posiciones de #apruebo/#rechazo una nueva constitución. Nuestro trabajo fue publicado en el periódico más importante de Chile, El Mercurio, en colaboración con el periodista Alexis Ibarra:

En el proyecto se incorporó Paula Vásquez-Henríquez, colaborando con la detección de bots y cuentas anómalas en la discusión. En The Clinic hay una nota al respecto.

También utilicé el proyecto tsundoku para estudiar la reacción de la gente en Twitter al estallido social. Nuevamente junto a Alexis hicimos una nota que se publicó en El Mercurio:

Sobre ese estudio escribí un blogpost describiendo el análisis y más: El País de Octubre (según Twitter).

También hemos hecho investigación. Con Mounia Lalmas y Ricardo Baeza-Yates estudiamos cuatro años de discusión sobre aborto en Argentina y Chile, llegando a conclusiones sobre cómo las personas expresan sus posiciones políticas y sobre la detección de cambios de opinión en temas controversiales.

¿Qué caracteriza cuatro años de discusión sobre aborto en Twitter?

¿Qué caracteriza cuatro años de discusión sobre aborto en Twitter?

¿Qué caracteriza cuatro años de discusión sobre aborto en Twitter?

Ese trabajo, titulado Every Colour You Are, fue publicado en la conferencia ACM Web Science 2020, más un blogpost en inglés explicando los resultados y una presentación en castellano en el evento Lo Mejor de lo Nuestro en las Jornadas Chilenas de Computación 2020 (el video de la presentación está disponible en YouTube).

Actualmente lo estamos utilizando junto a Yerka Freire-Vidal y Francisco Rowe para caracterizar las actitudes sobre la inmigración en Chile.


¿Quieres colaborar conmigo? Por favor revisa la página de Contacto para escribirme.