La inteligencia artificial generativa, que nos ha sorprendido con su capacidad para conversar y producir contenidos, se alimenta de enormes bases de datos. Entre los centenares de Gigabytes que han nutrido a los modelos de inteligencia artificial (IA) se encuentran millares de libros de toda índole. Los autores de algunos de ellos consideran que hay una apropiación indebida de su trabajo y exigen que las empresas de IA les paguen regalías. Los modelos de IA no reproducen esos textos: se nutren con ellos, y con muchísimos más, para crear nuevos contenidos.
En Internet abundan las versiones piratas de libros que son escaneados, o cuyas planas originales se filtran a quienes, con ellas, organizan grandes repositorios. Hace tres años el programador Shawn Presser tomó de esos sitios 196 mil 640 libros y los convirtió a formato de texto, para crear una base de datos que pudiera ser empleada por los investigadores que entrenan sistemas de IA. Ese archivo, llamado Books3, ha sido utilizado por empresas como META (propietaria de Facebook) que diseña un modelo de IA denominado LLaMA. No se ha aclarado si OpenAI, la empresa que maneja modelos como el popular ChatGPT, utiliza los textos de Books3.
La existencia de Books3 se conocía desde octubre de 2020 pero no había llamado la atención pública. En agosto pasado un grupo anti piratería denominado “Alianza por los Derechos”, asentado en Copenhague, logró que los propietarios de los servidores en donde estaban alojados borraran los archivos de Books3 o, al menos, bloquearan el acceso a ellos. Ahora es más difícil acceder a esa base de datos. Poco después, en septiembre, varios escritores en Estados Unidos demandaron a META por alimentar a su IA con libros que tienen derechos reservados. Por su parte el Gremio de Autores, en una carta que suscrita por más de 10 mil escritores, reclama que las empresas de IA generativa compensen a los autores cuyos libros son utilizados para nutrir a esos sistemas.
El escritor y programador Alex Reisner, que colabora en The Atlantic, consiguió una copia de Books3 e identificó en ella más de 191 mil libros, la mayoría publicados en las últimas dos décadas. También comprobó que junto a esos títulos, entre los documentos que entrenan a sistemas de IA hay transcripciones de las discusiones en el Parlamento Europeo, subtítulos de videos en YouTube, correos electrónicos de los empleados de la empresa Enron antes de su bancarrota en 2001 y toda Wikipedia.
Con el propósito de identificar cuáles son los libros reunidos en Books3, Reisner recogió allí los números de ISBN (el registro que debe tener cada libro que se publica). Con ellos, seleccionó en la base informática de ISBN los títulos, autores y editoriales a los que corresponden. Reisner dice que la tercera parte son obras de ficción. Allí se encuentran libros de autores muy leídos como Ferrante, Franzen, Murakami, Atwood, junto a muchos más. También hay libros de Ron Hubbard, el creador de la embaucadora Iglesia de la Cienciología, así como de autores que aseguran que la tierra es plana.
Todos esos títulos, fueron tomados de archivos en línea que ofrecen libros sin autorización de quienes los publican. Con ello ofrecen un servicio literalmente valioso a millares de lectores, pero a costa de los ingresos de autores y editores. “El futuro prometido por la IA está escrito con palabras robadas”, escribió Reisner en The Atlantic el 19 de agosto.
Reisner ha encontrado que en los archivos compilados en Books3 hay libros de poesía y cocina, guías de viajes, literatura de calidad y, seguramente, textos que no ameritarían trascender a ninguna inteligencia, por muy artificial que sea. La glotonería de los modelos de IA no tiene límites.
El descontento de algunos autores resulta entendible porque suponen que los sistemas de IA se aprovechan de su trabajo y además, como denunciaron los escritores de Hollywood que estuvieron en huelga, el uso de tales modelos puede dejar sin empleo a quienes realizan tareas creativas, como los propios escritores. Las empresas de IA responden que sus sistemas no copian, ni publican, las obras que nutren a sus modelos. Pero ya que funciona a partir de millones de documentos, podemos preguntarnos ¿en qué textos queremos que se nutra la IA generativa? Es deseable que se alimente con las mejores obras.
La semana pasada Reisner abrió en el sitio de The Atlantic un acceso para consultar los nombres de quienes escribieron 183 mil de los libros de Books3. Ya había difundido que en esa base de datos hay 236 obras de William Shakespeare y 94 de Stephen King, entre muchos otros escritores. Ahora podemos saber, además, que allí hay, en inglés o en español, 29 libros de Carlos Fuentes, 5 de Octavio Paz y otros tantos de Valeria Luiselli, Sergio Pitol y Álvaro Enrigue, 3 de Laura Esquivel, 3 de Enrique Krauze, 2 de Jorge Volpi y 2 de Juan Villoro.
En Books3 hay un libro de cada uno de los siguientes autores: Alfonso Reyes, José Revueltas, Juan Rulfo, Juan José Arreola, Jaime Sabines, José Emilio Pacheco, Elena Poniatowska, Héctor Aguilar Camín, Angeles Mastretta, Alvaro Uribe, Christopher Domínguez. Como demostración de que la calidad no es el único criterio que se empleó para reunir esos libros, hay seis Paco Ignacio Taibo II, dos del Subcomandante Marcos, uno de Andrés Manuel López Obrador y otro de Antonio Velasco Piña.
Con textos de esos autores, entre muchísimos más, se alimenta la IA. Es preferible que entre ellos se encuentren los mejores escritores aunque, como en los estantes de las librerías, hay de todo.
Es imposible, pero antes que nada resulta indeseable, tratar de frenar tales procesos. Así lo entiende Stephen King, uno de los autores cuyos textos se encuentran en Books3 y que escribió (The Atlantic, 23 de agosto): “¿Prohibiría la enseñanza (si esa es la palabra) de mis relatos a las computadoras? No, aunque pudiera. Me parecería al rey Canuto, prohibiendo que suba la marea. O a un ludita que intenta detener el progreso industrial destrozando un telar de vapor”.