¿En qué fijarte al buscar trabajo de Data Science?
Tabla de contenido
En 2019 di una charla en StarsConf sobre el estado de Data Science en Chile y qué buscar al postular a trabajos en el área. El tema era (y sigue siendo) relevante porque muchas organizaciones prometían roles de Data Science sin tener la infraestructura básica para que estos profesionales pudieran trabajar efectivamente.
A través de mi experiencia he aprendido algo sobre el estado de esta disciplina en Chile. Y como más sabe el diablo por viejo que por diablo, aquí comparto lo que he observado sobre cómo evaluar si una organización realmente está preparada para ciencia de datos.
¿Madurez estructural? #
La firme: si buscan unirse a una organización que haga Data Science, lo primero que deben evaluar es la infraestructura. No basta con que la empresa diga que quiere “ser data-driven” o que “los datos son el nuevo petróleo”. Necesitas saber si tienen las bases para que puedas trabajar.
María Cuky Pérez de Airbnb propone evaluar los siguientes niveles de madurez estructural de una organización:
Infraestructura: ¿Dónde están los datos? ¿Cómo se almacenan? ¿Cómo se acceden? Este es el nivel más básico. Si no existe, todo lo demás es imposible.
ETL (Extract, Transform, Load): ¿Es un proceso automatizado con responsables claros? Los datos deben fluir de manera predecible y confiable desde sus fuentes hasta donde los necesitas.
Analítica avanzada: ¿Hay procedimientos establecidos de descripción, predicción y prescripción? ¿La organización entiende estos conceptos?
Productos y servicios basados en datos: ¿Las decisiones de producto o servicio son realmente data-driven? ¿O se toman por corazonadas y luego se buscan datos que las justifiquen?
Experimentación: ¿Existe una plataforma para experimentar? ¿Existe conocimiento que permita evaluar los resultados estadísticamente?
Visualización: ¿Hay capacidad de explorar, visualizar y comunicar los resultados de experimentos y análisis?
Para una posición de Data Scientist debe haber al menos ETL automatizado. Si no, un rol de Data Science es pura fantasía en un mundo de Bilz y Pap. Te van a contratar para hacer Excel avanzado, no Data Science.
Al pan, pan, y al vino, vino: tres preguntas críticas #
Cuando evalúes una oportunidad laboral, haz estas tres preguntas. Las respuestas te dirán más sobre la organización que cualquier descripción de cargo.
¿Cuál es la infraestructura de organización, almacenamiento y consulta de los datos? #
Que “los datos” estén en archivos almacenados no implica que sean de calidad ni accesibles. Si alguien dice “están en una base de datos Access, te la copio en un pendrive”, huye. Es indicio de una pesadilla.
Una respuesta sana suena así:
tenemos un data warehouse en [tecnología], con pipelines automatizados que se ejecutan diariamente, documentación de las tablas, y acceso mediante [herramienta de consulta].
Una respuesta preocupante es:
los datos están en varios lugares, pero Juan Carlos sabe dónde están todos.
¿Son los datos materia dispuesta para trabajar, o tendrás que pasar meses tratando de encontrarlos y limpiarlos?
¿Cómo se aprovechan los datos en la estrategia de la empresa? #
Aquí quieren saber si la pirámide de management de la empresa entiende tres cosas:
Primero, dar prioridad a la evidencia basada en datos por sobre las corazonadas. Esto no significa que la intuición no importe, sino que cuando hay evidencia disponible, esta debe pesar más.
Segundo, trabajar en proyectos con incertidumbre. Data Science no es una máquina de hacer reportes. Es exploración, experimentación, y muchas veces no saber qué vas a encontrar.
Tercero, que no haya barreras burocráticas excesivas para la transferencia de conocimiento entre equipos.
Cuando un manager cree más en sus tincadas que en tu experiencia y evidencia, considera huir. El que sabe sabe, y el que no… no debería estar tomando decisiones.
¿Cómo se transfieren los resultados de Data Science al negocio? #
No es lo mismo un equipo de Data Science que Data Science en los equipos. El primer caso crea un silo: les data scientists hacen análisis bonitos que nadie implementa. El segundo integra capacidades analíticas en los equipos que toman decisiones.
Cuidado con la fragmentación en silos con sus propios datos no compartidos. Peor aún: equipos o áreas que compiten entre sí en vez de colaborar. Si cada área tiene “sus” datos y no los comparte, vas a pasar más tiempo negociando acceso que haciendo análisis.
¿Remamos todos para el mismo lado, o cada uno rema para su propio bote?
Ojo, pestaña y ceja: tres cosas en las que fijarse #
Más allá de la infraestructura técnica, hay aspectos culturales que determinarán si puedes trabajar efectivamente.
¿Hay diversidad en los equipos? #
Estamos trabajando en problemas con incertidumbre. Necesitamos verlos desde la mayor cantidad de ángulos posible. Los equipos homogéneos tienden a tener puntos ciegos comunes entre sus integrantes.
Si no puedes ver los sesgos en el mundo físico, menos podrás verlos en espacios de información abstracta. Como Data Scientist tendrás que aprender a mirar debajo del agua, y eso requiere perspectivas diversas.
¿Cómo se comparte conocimiento en la empresa? #
¿Hay repositorios de conocimiento como wikis internas? ¿Documentación de procesos? ¿O todo está en la cabeza de personas específicas?
Cuidado con el viejito que lleva treinta años en la empresa y es el único repositorio de información crítica. Peor si solo te la entrega si le caíste bien. Ese es conocimiento pasado a gladiolo: se va alguien y se pierde todo.
¿Cómo actuamos ante los problemas y desafíos? #
La cultura es importante. La política también. En Data Science fallarás 90% del tiempo. No porque seas malo, sino porque la naturaleza del trabajo es exploratoria. La mayoría de las hipótesis no se confirman. La mayoría de los modelos no funcionan como esperabas.
La organización debe estar preparada para esa realidad. Cuidado con la “sobreagilidad” y el discurso de management donde hay más keywords que sustancia. Si escuchas muchas palabras como “disrupción”, “innovación”, “mindset” pero no ves procesos concretos para manejar incertidumbre, desconfía.
Por la boca muere el pez, y caemos todos con él.
Paren la oreja: una verdad incómoda #
No hay una única solución a los problemas. Así como hay un universo de soluciones debido a todas las maneras posibles de hacer las cosas, hay aún más universos de problemas y fallos. El siguiente experimento muestra como decenas de equipos de Data Science aplicó distintos enfoques (¡no se repitió ninguno!) para resolver el mismo problema (misma definición, mismos datos):
Esta realidad tiene implicaciones tanto para personas como para organizaciones.
Personas: prepárense para estar equivocados gran parte del tiempo. Esto no es fracaso, es el trabajo. Data Science es fundamentalmente reducir incertidumbre, no tener certezas.
Organizaciones: tener una sola persona, por muy buena que sea, no entregará “la” solución correcta o la “mejor”. Necesitan equipos, procesos, y una cultura que entienda que el valor está en el proceso de exploración, no solo en los resultados finales.
Todavía hay gente que cree en el Viejo Pascuero y piensa que contratar un data scientist va a resolver mágicamente todos sus problemas de negocio.
Para cerrar #
Estas reflexiones siguen siendo relevantes varios años después. El mercado ha madurado un poco, pero aún encuentro organizaciones que cometen los mismos errores: contratar talento sin tener infraestructura, prometer roles de Data Science que en realidad son reportería, o esperar resultados inmediatos en problemas complejos.
En el video de la charla profundizo estos puntos con ejemplos específicos del mercado chileno de ese momento. Los principios, sin embargo, son universales y atemporales.