Corrupción del sistema

Un nuevo estudio demuestra que entrenar la IA con datos sintéticos la condena a decir "tonterías"

Los autores indagan en los riesgos de usar únicamente contenido que ha sido generado artificialmente

Las emisiones de Google aumentaron un 48% en los últimos cinco años debido a la incorporación de la inteligencia artificial (IA) en muchos de sus productos principales.

Las emisiones de Google aumentaron un 48% en los últimos cinco años debido a la incorporación de la inteligencia artificial (IA) en muchos de sus productos principales. / AGENCIAS

Carles Planas Bou

Utilizar datos generados por inteligencia artificial (IA) para entrenar esos sistemas puede ser una sentencia de muerte. Así lo desvela un nuevo estudio publicado este miércoles en la revista científica Nature, que advierte que retroalimentar los modelos de aprendizaje automático con datos sintéticos conduce de forma "inevitable" a contaminar sus resultados, una intoxicación que se conoce como colapso del modelo.

La investigación liderada por Ilia Shumailov, científico computacional que trabaja para Google DeepMind, demuestra que el bucle recursivo que supone alimentar la IA solo con datos generados por IA degrada la capacidad de aprendizaje del sistema, corrompe su funcionamiento y termina proporcionando información incorrecta, sustituyendo el contenido original por "tonterías sin relación".

En el último año y medio, el ecosistema tecnológico ha vivido en primera persona la eclosión de la popularidad de la llamada IA generativa, los sistemas basados en grandes modelos lingüísticos (LLM) que se entrenan con datos extraídos de Internet para poder generar todo tipo de contenidos, desde mensajes escritos a imágenes y sonidos. Por ahora, la mayoría de esas herramientas, como ChatGPT, se entrenan con contenido creado por humanos.

Colapso "inevitable"

Sin embargo, la fiebre desatada en el sector por la IA generativa y su acelerado despliegue puede cambiar esa realidad. "A medida que se adoptan más estos LLM, más datos sintéticos terminan en Internet, lo que podría afectar hipotéticamente los entrenamientos de versiones futuras", ha advertido Pablo Haya Coll, investigador del Laboratorio de Lingüística Informática de la Universidad Autónoma de Madrid (UAM) y director del área de Business & Language Analytics (BLA) del Instituto de Ingeniería del Conocimiento (IIC).

Así, los autores del estudio indagan en los riesgos que entrañaría que los modelos de IA se entrenen únicamente con contenido sintético, aquel generado artificialmente. Una de sus pruebas fue con un texto sobre arquitectura medieval y, a la novena generación, el resultado regurgitado por la máquina fue "una lista de conejos".

El uso de datos sintéticos para entrenar esos modelos hace que, según Víctor Etxebarria, catedrático de Ingeniería de Sistemas y Automática en la Universidad del País Vasco (UPV/EHU), las IA "no sirvan para ninguna función realmente fiable", convirtiéndolas en herramientas "no solo inútiles para ayudarnos a solucionar nuestros problemas, sino potencialmente nocivas".

Estudio teórico

Por su parte, Andreas Kaltenbrunner, investigador líder del grupo AI and Data for Society de la Universitat Oberta de Catalunya (UOC), lamenta que, a pesar de ser "de buena calidad", el valor del estudio es "a nivel teórico", pues sus conclusiones se basan en la asunción de que los futuros modelos de IA se entrenarán solo con datos sintéticos. "No está claro cuál sería el resultado si se mezclan datos generados por humanos con datos generados por IA y todavía menos que pasaría si además se añaden datos (cada vez más frecuentes) generados de forma híbrida entre IA y humanos", añade.

Más allá de ese escenario hipotético, el estudio demuestra mediante el uso de modelos matemáticos que la IA puede entrenarse a sí misma solo con una parte del conjunto de datos de entrenamiento, ignorando así otros resultados, lo que llevaría al colapso del modelo. Shumailov asegura que no es imposible entrenar modelos de IA con datos sintéticos si esos han sido filtrados previamente.