Taller de Data Science

Sobre el Curso

Este curso práctico tiene como finalidad que les alumnes sean capaces de utilizar herramientas tecnológicas para trabajar con datos complejos provenientes de distintas fuentes, elaborar y corroborar hipótesis, explorar espacios de información, modelar procesos y estructuras utilizando técnicas del estado del arte, y apoyar la toma de decisiones. Particularmente, el curso se enfoca en tres unidades: análisis y exploración de datos, visualización de información y ciencia de redes.

La intención de la primera unidad, análisis y exploración de datos, es que les estudiantes puedan utilizar herramientas de procesamiento de datos y entornos de programación para poder cargar, limpiar, evaluar, cruzar y explorar datasets en un área aplicada específica, como transporte, redes sociales, o colecciones de documentos.

La segunda unidad, visualización de información, busca que les estudiantes puedan comunicar de manera gráfica los análisis realizados, las propiedades de los datos, las hipótesis de trabajo que guiaron la exploración, así como fomentar el espíritu crítico, para que les estudiantes aprendan a interpretar gráficos y cuestionar decisiones estadísticas y gráficas.

La tercera unidad, ciencia de redes, se enfoca en el análisis y construcción de redes, donde las entidades que están presentes en un dataset no solamente existen individualmente, sino que también presentan relaciones entre ellas. El análisis de redes permite encontrar elementos importantes dentro de ellas (centralidad), determinar conjuntos de elementos que compartan propiedades (clustering) o que separan la red en sub-redes (detección de comunidades), o bien encontrar caminos (shortest path) entre elementos de una red, algo común en transportes y comunicaciones.

Profesores

Diego Caro y Eduardo Graells-Garrido del Instituto de Data Science, Ingeniería UDD.

Nuestros correos son dcaro y egraells en udd.cl.

Estructura de Clase

Cada clase realizaremos las siguientes actividades:

Horario

Versión 2017.2. Jueves, 14:30 a 17:20. Sala Taller Y035, Campus RESB, Universidad del Desarrollo.

Requisitos

Debes tener conocimientos sólidos de estadística y básicos de programación. Utilizaremos el lenguaje Python en sus versiones 3.5 o 3.6.

Recursos

Comunicación:

Herramientas:

Tutoriales, contenido:

Proyectos

Les alumnes deben formar grupos de dos o tres personas, que desarrollarán un proyecto a lo largo del curso de manera incremental, con feedback y revisiones de pares semana a semana. El propósito del proyecto es que les alumnes demuestren su entendimiento y aprendizaje de ciencia de datos, de modo que puedan aplicarlo en contextos reales, con potencial impacto en la sociedad.

Un proyecto abarca desde la etapa de recolección y análisis de datos hasta la respuesta de preguntas de investigación sensibles para problemas reales. Esto incluye descargar, adquirir, cruzar y limpiar datasets, formular las preguntas de investigación de interés desde la perspectiva de la sociedad, proponer respuestas y soluciones a dichas preguntas, responderlas a través del modelamiento y análisis de datos y visualización de información, y documentar los resultados a través de notebooks de Jupyter que sean autocontenidos y reproducibles.

Un proyecto debe ser rico en datos (tiene que tener cientos de variables y miles de casos), innovativo (no debe ser un problema trivial), completo y publicable. Serán evaluados en los siguientes aspectos:

La pauta para realizar el reporte del proyecto está disponible en este documento (PDF). La pauta para el segundo certamen 2 está en este pdf.

Clases

Los contenidos prácticos del curso estarán disponibles en este repositorio de github.

Clase 1: Introducción.

Clase 2: Python

Clase 3: Análisis de Datos con Pandas

Clase 4: Data Munging

Clase 5: Ayudantía usando Pandas

Datasets

Datos Auxiliares

Lecturas

Estos artículos académicos son los que usaremos como lecturas en el curso. Clase a clase indicaremos cuál es la lectura de la próxima semana, que será discutida al inicio de la sesión.

Otras Lecturas / Links

Estas lecturas no son obligatorias para el curso (no serán evaluadas clase a clase) pero están relacionadas con los contenidos y serán mencionadas en clase.

Créditos

En el material de clase utilizamos contenido y figuras de Tamara Munzner, Albert-László Barabási. En los ejemplos prácticos utilizamos material de Jake Vanderplas, incluyendo traducciones de Leo Ferres.