El mono ladrón inmortal
¿Podría un mono inmortal, tecleando aleatoria e infinitamente en una máquina de escribir, producir Hamlet palabra por palabra? En La biblioteca de Babel, Borges describe una biblioteca infinita que contiene todos los libros que podrían ser escritos. La teoría de la probabilidad dice que hasta los eventos más improbables pueden ocurrir, siempre que haya suficiente tiempo, recursos y oportunidades. Si la industria tecnológica es una secta, esta es su religión.
En la ideología del Valle, cualquier problema puede ser solucionado con suficiente dinero, tiempo, programadores y potencia de computación. Pocos casos más ilustrativos que Theranos, el unicornio de Elizabeth Holmes. La "innovadora", "disruptiva" y "pionera" empresa que prometía revolucionar la medicina con una máquina capaz de hacer análisis complejos a partir de una sola gota de sangre no se dejó desalentar por las leyes de la física y la estadística, que decían que no hay glóbulos suficientes en una muestra tan pequeña para detectar un cáncer, un embarazo o una artritis. Ahora Holmes cumple condena por fraude, pero el Valle no ha corregido su error.
En el mundo de la inteligencia artificial, esta religión se manifiesta como las "leyes de escalamiento o escalabilidad". No son leyes reales, pero dicen que lo único que nos separa de la Inteligencia Artificial General son ordenadores más potentes, programadores más listos y más bases de datos para entrenar los modelos de IA. Lo primero está ya consumiendo más agua, oxígeno y energía que un país europeo mediano. Lo segundo está por ver. Lo tercero es menos problemático, pero solo si ignoras la calidad, origen y licencia del contenido original.
Los primeros modelos de IA fueron entrenados con los frutos de la web 2.0: blogs, webzines, posts, tuits, pins, reddits y todas las demás manifestaciones de la Red social. También con el contenido de bibliotecas, periódicos, archivos universitarios y otros contenedores de material trabajosamente digitalizado durante los últimos 20 años. La reciente investigación de Christo Buschek y Jer Thorp sobre LAION-5B demuestra que la selección es más oportunista que deliberada.
Los métodos de selección de contenidos para alimentar la IA son puramente automatizados, sin intervención humana alguna, y están supeditados a la accesibilidad y pre-etiquetado de las muestras, no a su calidad. Tampoco hay supervisión, ni la habrá nunca. "Alguien que trabajara ocho horas al día, cinco días a la semana revisando cada imagen de esta base de datos durante al menos un segundo, tardaría 781 años en mirarlo todo", dicen Buschek y Thorp. Esto explica por qué aparecen imágenes de explotación de menores en los modelos comerciales de IA. Estaban bien etiquetadas. Estaban en Internet.
El método no ha cambiado. Mira Murati, jefa de seguridad de OpenAI, declaró recientemente que habían entrenado Sora, su modelo de generación de video, con "datos públicos". No quiere decir "en el dominio público" sino pescados indiscriminadamente de YouTube, Instagram o TikTok. No están solos. En las pruebas del juicio de The New York Times contra OpenAI, vemos que los abogados de Meta aconsejaron robar lo que haya disponible y enfrentarse a posibles demandas, mejor que perder tiempo esperando a que editores, artistas o músicos firmen contratos de cesión. Dicen que Google no ha querido demandar a OpenAI porque probablemente está haciendo lo mismo que ellos. A quién le sirve un mono que tiene que robar, estafar y quemar el planeta para escribir Hamlet. Para qué es.