Generalización de modelos de lenguaje (LLM) podría dificultar su correcta evaluación y aplicación

Un reciente estudio del MIT encontró que la falta de alineación entre los humanos y los grandes modelos de lenguaje (LLM, por sus siglas en inglés) puede causar un exceso o una falta de confianza en el despliegue del modelo, lo que podría llevar a fallos inesperados.

Muchas de las aplicaciones de IA Generativa que están ahora disponibles para los usuarios, desde ChatGPT o la más reciente actualización de Meta AI, están basadas en modelos de aplicación general que podrían dificultar que los usuarios puedan determinar con confianza cuál modelo es el mejor para cada tipo de tarea.

Aunque el estudio publicado por el MIT no se refiere a ningún modelo en particular, también advierte que la amplia aplicabilidad de los modelos actualmente disponibles dificulta su evaluación sistemática. “Sería imposible crear un conjunto de datos de referencia para probar un modelo en cada tipo de pregunta que se le pueda plantear”, advierte.

dplnews llm machine learning inteligencia artificial cerebro mc28824
Crédito: Adobe Stock

En ese sentido, al considerar que el resultado de cada LLM depende de cómo es aplicado por cada usuario –ya sea escribir un correo electrónico o ayudar en resumir un documento–, se debe integrar el factor humano al evaluar cada modelo, basándose en la alineación con las creencias o expectativas humanas sobre su rendimiento en cada tarea.

El estudio introdujo una función de generalización humana para modelar cómo las personas actualizan sus creencias sobre las capacidades de un LLM. Esta función consiste en formular preguntas, observar cómo responde una persona o LLM y, a continuación, hacer inferencias sobre cómo respondería esa persona o modelo a preguntas relacionadas.

Sus resultados indican que cuando los modelos están desalineados con la función de generalización humana, un usuario podría confiar demasiado o demasiado poco en dónde desplegarlo, lo que podría hacer que el modelo fallara inesperadamente. Además, debido a esta desalineación, los modelos más capaces tienden a obtener peores resultados que los modelos más pequeños en situaciones de alto riesgo.

También lee: Modelos de lenguaje corren el riesgo de colapsar cuando son entrenados con datos generados por IA

El estudio se realizó mediante una encuesta para medir cómo generalizan las personas cuando interactúan con los LLM, generando un conjunto de datos de 19 mil ejemplos en 79 tareas.

Los investigadores explican que el estudio es similar a cuando formamos expectativas respecto a las áreas de conocimiento de otras personas. Por ejemplo, creer que cierto amigo que siempre corrige la gramática, asumir que sería bueno en construir enunciados. Sin embargo, esto no necesariamente funciona de manera similar al evaluar los resultados de los LLM.

El estudio comprobó que los participantes eran bastante buenos cuando se les preguntaba si un humano que había acertado una pregunta respondería bien a otra relacionada, pero eran mucho peores a la hora de generalizar el rendimiento de los LLM.

“La generalización humana se aplica a los modelos lingüísticos, pero eso se rompe porque estos modelos lingüísticos no muestran realmente patrones de experiencia como lo harían las personas”, afirma Ashesh Rambachan, profesor adjunto de Economía e investigador principal del Laboratorio de Sistemas de Información y Decisión (LIDS).