Modelos de lenguaje corren el riesgo de colapsar cuando son entrenados con datos generados por IA

Un nuevo estudio ha revelado que los grandes modelos de lenguaje (LLM) podrían enfrentar serios problemas de rendimiento si se entrenan continuamente con datos generados por otros sistemas de Inteligencia Artificial.

Crédito: Adobe Stock

Un reciente estudio publicado en la revista Nature descubrió que los grandes modelos de lenguaje (LLM) que se entrenan constantemente con datos generados por otros sistemas de Inteligencia Artificial (IA) pueden terminar colapsando, lo que provoca que proporcionen información incorrecta y sesgada, e incluso desarrollen un tipo de demencia.

“Descubrimos que el uso indiscriminado de contenido generado por modelos en el entrenamiento causa defectos irreversibles en los modelos resultantes”, señalaron los autores del estudio, liderados por Ilia Shumailov, investigador y científico de Google DeepMind.

El desarrollo y entrenamiento de los LLM es un proceso complejo que requiere grandes cantidades de datos extraídos de diversas fuentes en Internet, como redes sociales, blogs, portales de noticias e incluso videos de YouTube. Actualmente, los modelos existentes se entrenan principalmente con contenido que ha sido creado por humanos, pero esto podría cambiar a medida que Internet se llene de contenido generado por modelos de IA anteriores.

Problemas del entrenamiento con datos generados por IA

“Si los datos de entrenamiento de la mayoría de los modelos futuros también se extraen de la web, inevitablemente se entrenarán con datos producidos por sus predecesores”, explica el estudio. Este uso indiscriminado de datos generados por otros modelos de IA provocará un proceso degenerativo en el cual los modelos comienzan a olvidar la distribución original de la información, lo que conduce al ‘envenenamiento’ de los datos.

El estudio ilustra este proceso con un ejemplo: si un modelo se entrena inicialmente con imágenes de las razas de perros más comunes, como el golden retriever, este modelo generará más contenido relacionado con esta raza debido a la mayor cantidad de datos disponibles.

AD 4nXdyGbREyZOflly67wCulmbbPAS1ikPrjgf5I6IFaNBCn1iP1gxo0F KYLUsVGJ5s0U3W61US9amxJJrwPIRTw c8rmvE2H2VTOKaefLx 54jQgC6v2jwFWYdSOs4GFyCLIbgGsnvLj4PCTqZTY34gCMdVgE?key=0aKMTgetcHk5uWfNTqk50Q

Si otros modelos comienzan a ser entrenados con los datos generados por el modelo anterior, con el tiempo, los modelos futuros tenderán a olvidar por completo a las otras razas de perros y sólo podrán representar al golden retriever, hasta que su rendimiento se degrade a tal grado que terminan generando imágenes de manchas sin sentido, desarrollando un tipo de demencia o alucinación.

Los datos auténticos tendrán cada vez más valor

El colapso del modelo destaca la necesidad de mantener acceso a fuentes de datos originales verificados por humanos, ya que la contaminación de datos podría comprometer la capacidad de los modelos para aprender de manera efectiva. “Los datos sobre las interacciones humanas con LLM serán cada vez más valiosos”, afirma el estudio.

Los investigadores sugieren que una posible solución para evitar el colapso de los modelos de IA es que las diferentes partes involucradas en la creación y despliegue de los LLM se coordinen para compartir información sobre la autenticidad y diversidad de los datos utilizados para entrenar futuras versiones de los modelos.

“De lo contrario, puede resultar cada vez más difícil entrenar versiones más nuevas de los LLM sin acceso a los datos que se rastrearon de Internet antes de la adopción masiva de la tecnología”, concluye el estudio.

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies