Escribí esto como respuesta para un artículo sobre reconocimiento facial en un medio chileno. Al final no lo publicaron, pero lo puedo subir aquí.

La visión computacional avanza rápido, tanto así, que de las máquinas ya saben ver. Ejemplos incluyen la tecnología que permite vehículos autónomos, la medición de pobreza utilizando imágenes satelitales, o reconocer a las personas que aparecen en la foto de una fiesta de matrimonio.

Sin embargo, ser capaz no implica ver bien, ni comprender qué es lo que se está viendo. A diferencia de las personas, en general las máquinas solo pueden identificar lo que les enseñaron y en las condiciones en las que les enseñaron. Así, ¿cómo funciona un programa de reconocimiento facial? Reconociendo las distintas características que vio en cientos, miles, millones de fotos de rostros, y tratando de identificarlas. Estas características incluyen los colores de la foto, por tanto, colores de piel, de ojo, de pelo; la distribución de elementos en el rostro, como los ojos, los pómulos, la boca, partes que tienen posiciones relativas a las otras, determinadas por la anatomía humana; si la calidad de imagen lo permite, las texturas (como la rugosidad de la piel, que no es la misma de una máscara de plástico); entre otras características. En el caso de las redes sociales, también hay información contextual: en la foto de una fiesta es probable que las personas que aparezcan juntas se conozcan y sean (o aparente ser) amigas, reduciendo el campo de candidatas a ser identificadas.

Entonces, ¿qué podría salir mal? Reconocer que una foto contiene un rostro, y saber a quien pertenece, es un problema de clasificación que las máquinas pueden resolver bien si se pide reconocer a quienes aparecen en fotos de las mismas características donde se aprendió. Si la máquina lo hizo estudiando fotos de frente de alta resolución con buenas condiciones de iluminación, y en vez de eso le entregamos fotogramas de un video a baja resolución, con un ángulo superior de encuadre, en condiciones de paupérrima iluminación, el resultado será basura. Pero la máquina responderá igual — una característica de los algoritmos es que pocas veces dicen que no saben la respuesta.

Hay que aclarar que las máquinas ven, pero no es el mismo ver nuestro. Si la máquina aprendió solamente con fotos de perfil de redes sociales, no reconocerá rostros, reconocerá fotos de perfil de redes sociales. Si la máquina aprendió a ver fotos de personas de tez blanca o clara, no reconocerá a quienes tienen la piel más oscura. Hace un tiempo un equipo de investigación chino publicó un artículo diciendo que podían predecir si alguien era delincuente en función de su foto de perfil. Pero, ¿cómo aprendió la máquina? Con fotos de perfiles de LinkedIn como ejemplos de personas “no delincuentes”, y fotos de prontuario (“mugshots” en inglés) para delincuentes. La comparación es insensata, aún más de lo que fue la frenología: si usabas corbata inmediatamente quedabas descartada de la clasificación como delincuente. Esa situación va más allá de la investigación, en los Estados Unidos ya se han arrestado personas por error debido a sistemas de reconocimiento propiedad del FBI.

¿Y qué podría salir peor aún? Que nada asegura que la colección de datos utilizada para entrenar haya sido preparada para ser justa y equilibrada para el reconocimiento facial. Cualquier sesgo en la creación de estos datos se traspasará a lo que haga el algoritmo. Tanto sesgos en la recolección de los datos como en la definición del algoritmo en sí mismo. Por ejemplo, ¿son los controles policiales equilibrados, o tienden a controlar más a personas con ciertas características, de ciertos lugares? Imagínalo a escala de país y no de lo que alcanza a ver un policía en la calle, multiplicado. Un estudio del MIT de 2018 detectó que un algoritmo de reconocimiento facial en Estados Unidos fallaba más cuando se le presentaban fotos de mujeres y de hombres o mujeres de color, ¡y más aún en casos que combinan esas características!

En Chile, este año un recinto de Mall Plaza probó tecnología de reconocimiento facial. Por cada diez personas que trató clasificar, se equivocaba en nueve. ¿Por qué se equivocó? No se sabe. Entonces, ¿cuáles son los riesgos de tener un sistema como éste en Chile? Sin discutir las violaciones a la privacidad (no soy experto en ese tema), veo que solo por parecerte a alguien o tener ciertas características físicas, una máquina dirá que eres culpable.