Escribir y editar para una nueva audiencia: las máquinas
Tabla de contenido
Mi posición: debemos escribir #
Quiero comenzar con una cita que vi en la estación de MetroBús Insurgentes, impresa sobre uno de los accesos a la estación. Dice:
Yo no estudio para escribir, ni menos para enseñar (que fuera en mí desmedida soberbia), sino sólo por ver si con estudiar ignoro menos.
—Sor Juana Inés de la Cruz
Subrayo el comienzo: «yo no estudio para escribir […]». Creo que cualquier persona que vive por el conocimiento tiene un pensamiento igual de solemne que el de ella. Sin embargo, estamos en un momento en el cual sí tendremos que estudiar para escribir. Esa es mi postura.
Debo contarles que además de académico tengo un lado B: soy escritor de ficción especulativa. Y también soy editor. Junto a mi esposa Daniela tenemos una editorial independiente llamada Trazos de Aves. Somos una micro-editorial, así que conozco cada etapa del proceso editorial.
Hoy, mi tesis central es que debemos estudiar para (entre otras cosas) escribir. Ahora no solo debemos relacionarnos entre personas, también necesitamos hacerlo con máquinas. No a través de la programación, que es la manera tradicional, sino a través de la escritura, del lenguaje natural. Lenguaje humano. Esa comunicación escrita necesita ser editada, y, por lo mismo, nuestro rol de editores y editoras será cada día más importante. Esa es la base de lo que compartiré sobre el mundo editorial y la IA.
Usos cotidianos y sesgos #
Como anécdota, en este viaje, también en la estación Insurgentes, vi publicidad de IA para usos cotidianos: aplicaciones para saber cuál cubierto usar en una mesa elegante, o para generar recetas a partir de los ingredientes que aparecen en una foto. En Chile no veo esa publicidad. Esto sugiere culturas de adopción completamente diferentes entre México y Chile. Sin embargo, en ambos extremos, México por el norte y Chile por el sur, utilizamos las mismas herramientas de IA. Eso se relaciona con un problema enorme que no siempre es evidente: los modelos de lenguaje que llamamos IA tienen sesgos respecto al conocimiento regional. Los modelos actuales tienen datos insuficientes sobre la historia de pueblos originarios latinoamericanos, sobre desarrollos científicos y tecnológicos de nuestras universidades, sobre literatura y pensamiento producidos en la región. No conocemos los datos de entrenamiento de estos modelos, pero sabemos que están sesgados hacia el mundo anglosajón. A tal nivel, que incluso cuando le pedimos que escriba en español, el texto parece traducido del inglés. Por ejemplo, seguro han notado que siempre utiliza gerundios (una mala práctica, como he aprendido como editor) o se come artículos o conectores que en inglés no se utilizan.
Estos sesgos están presentes en múltiples maneras de procesar información. No solo sucede con el texto o el lenguaje. Por ejemplo, en una versión tipo taller de esta conversación, muestro cómo le pido a un modelo de generación que imágenes que ilustre un pajarito llamado turdus falcklandii, conocido como «zorzal patagónico» en Chile. Es similar a la especie turdus infuscatus, aquí llamada «Primavera Negra». Al pedir el zorzal, el modelo me generaba otros pajaritos porque simplemente no conocía especies chilenas, y entendía que turdus se refiere a turdus migratorius, el robin americano, un tipo de zorzal en Estados Unidos, que comparte el nombre robin con otra ave diferente en Europa. Ambos robin tienen en común el plumaje naranja del pecho. El modelo no era consistente en hacer un robin americano o europeo. Este error que parece pequeño y lúdico se expande a todo tipo de conocimiento regional o latinoamericano. Y nadie puede decir que es falta de contenido, porque las personas que observan y registran aves son muchísimas. Así como en nuestras universidades hay archivos patrimoniales e incluso laboratorios de humanidades digitales que disponibilizan conocimiento. Otro ejemplo es el proyecto de un amigo que transcribe los chistes del Festival de Viña del Mar y los analiza, y resulta que una porción importante de los chistes, sobre todo aquellos que usan chilenismos, no son bien transcritos.
Esto significa que cuando analizamos o generamos contenidos con estos modelos, corremos el riesgo de perpetuar una perspectiva externa sobre nuestras realidades. Esto podría llamarse colonialismo digital.
Un modelo latinoamericano y meta-datos #
En Chile existe CENIA, el Centro Nacional de Inteligencia Artificial, fundado por cuatro universidades con financiamiento estatal, incluyendo la Universidad de Chile. En CENIA se propone una solución para este problema. Se llama LatamGPT y es un modelo entrenado solamente con datos latinoamericanos. Hoy considera el contenido de veintiún países diferentes. Es un proyecto que ha recibido apoyo del Gobierno de Chile y donde colaboran académicos y académicas de todo nuestro continente.
¿Cómo impacta esto al ecosistema editorial? Quiero enfocarme en una etapa del proceso de edición que no siempre es visible para los y las lectoras: los meta-datos. De hecho, usualmente quien escribe el libro no escribe sus meta-datos, sino que lo hace su editor(a). Esta información no está dirigida a las personas, sino que es creada para ser procesada por máquinas de catalogamiento y búsqueda. Es decir, la audiencia son máquinas. Para dirigirse efectivamente a una audiencia hay que saber comunicar y escribir.
Los meta-datos constituyen algo necesario hoy. Les daré un ejemplo concreto. En Chile, de acuerdo a un estudio publicado en el medio CIPER escrito por Ignacia Saona y Soledad Véliz, tenemos un problema de opacidad: 666 editoriales han solicitado al menos un código ISBN, pero solo 198 respondieron las encuestas del sector editorial para crear un mapa actual del ecosistema (y noten que prácticamente ninguna librería lo hizo). Por tanto, una porción importante de ese ecosistema es invisible en los análisis tradicionales.
Esta opacidad se convierte en una oportunidad para quienes usan IA, porque pueden establecer correspondencias entre contenidos y descripciones, predecir demandas y movimientos de mercado de maneras que antes eran imposibles para investigadores individuales porque simplemente no existía una sistematización de esos datos. Pero para llevar a cabo esto bien necesitamos IA local, latinoamericana.
Es un desafío, puesto que las máquinas que escribirían (y seguro algunas ya están escribiendo) esos meta-datos no entienden nuestro contexto regional. Las publicaciones de las editoriales Chilenas y Mexicanas son principalmente de contenido nacional. Le pediremos a máquinas que no «comprenden» nuestra cultura que escriban meta-datos sobre ella. Como consecuencia, los sistemas de búsqueda y recomendación no funcionarán adecuadamente y se perpetuarán los sesgos existentes.
El poder de los meta-datos #
Quise hacer un experimento y este año creé un programa (asistido por IA) que descargó la totalidad de registros ISBN en Chile hasta la semana pasada. Analicé los datos y pude observar cómo ha crecido el mercado editorial, y también cómo han cambiado las categorías de publicación. Este análisis tuvo impacto directo en las decisiones de la editorial que llevamos con mi esposa. Por ejemplo, ante el volumen de novelas y antologías que se publican, mucho mayor al que imaginábamos, decidimos reducir nuestro gasto en publicidad. No es algo que podamos costear: como editorial independiente casi no tenemos presupuesto, y lo poco que gastábamos no era suficiente. La solución es gastar más para imponerse, o bien buscar alternativas. Estamos en esto último porque no podemos competir contra ese volumen de publicación. Un volumen que era invisible antes de recolectar los datos y analizarlos. No solo invisible para la editorial sino para el ecosistema, a pesar de que esos datos están disponibles en el sitio de la Cámara Chilena del Libro y son visibles para cualquier persona que utilice el formulario de búsqueda.
Gracias a la estandarización de CERLALC en el registro de ISBN es posible aplicar el mismo procedimiento en otros países. Ya he descargado los meta-datos de 183 mil títulos mexicanos. Para ambos países tengo una cantidad similar de registros, pero en Chile abarcan desde 1990 hasta 2025, y en México, desde 2008 hasta 2015 (y contando). Son mercados de tamaños diferentes, tal como ambos países difieren en su densidad poblacional. Descubrí, por ejemplo, que la misma obra puede estar en categorías diferentes en ambos países. Entonces, ¿cómo hacer el match entre categorizaciones diferentes? ¿Cómo analizar patrones del ecosistema editorial? Propongo que es posible procesar y analizar esos meta-datos con IA, pero debe ser un modelo que tenga información sobre nuestra realidad, sobre nuestra cultura y sobre nuestra historia. De otro modo será información existente pero sesgada. Y allí hay otro aspecto crítico: una IA no está programada ni entrenada para decir que no sabe. Así que siempre que le pidas meta-datos de una obra, de un texto, te entregará algo con una confianza envidiable por los humanos, por muy erróneo que esté el texto, a pesar de estar escrito de manera impecable.
¿Qué hacer? Formar(nos) en lecto-escritura #
No basta con saber usar las herramientas ni con crear buenos prompts o instrucciones. Me explico: la nueva versión de una IA no funciona como una nueva versión de Word, donde quizás hay algunos botones más en la interfaz o tiene alguna capacidad adicional. Una nueva versión de una IA, ante el mismo prompt, entrega resultados completamente diferentes, incluso contradictorios con versiones previas. Entonces, si queremos generar buen contenido académico, no basta con saber qué es una IA y cómo hacer un buen prompt. Ese conocimiento queda obsoleto pronto. A eso se suma que las nuevas versiones de las IA no están cumpliendo con las expectativas que han creado.
En Chile y México compartimos una historia sacudida por terremotos. Lo que llamamos «Inteligencia Artificial» es uno que afecta a esta industria editorial. ¿Cómo lidiar con él? Se solía decir que saber inglés abría oportunidades. Hoy es un requisito en la práctica. Hace algunos años, se decía que programar sería un factor diferencial. Hoy hay gente que afirma que no es necesario aprender a programar gracias a las capacidades de la IA. No estoy de acuerdo. No porque me parezca necesario programar (que sí me lo parece), sino porque las habilidades de lecto-escritura son las que marcarán la diferencia en el mundo futuro. Ya la están marcando hoy, porque quienes leen y escriben regularmente, logran que las IA tengan impacto positivo en sus labores. Porque programar es estructurar información e instrucciones y comunicarla a una audiencia, y también leer otros programas. Para mí, programar es escribir. Escribir es programar la reacción emocional de tus lectores y lectoras. Editar textos y programas son actividades que no se diferencian tanto como podría parecer.
Necesitamos no solo saber usar estas herramientas, sino hacerlo manteniendo nuestra perspectiva regional y nuestros valores culturales, tanto los propios de cada país como los compartidos como identidad latinoamericana. Tenemos que estudiar para ignorar menos. Tenemos que estudiar para escribir y editar teniendo una nueva audiencia que no existía antes: las máquinas.