Expertos instan a monitorear los “pensamientos” de la IA antes de que sea demasiado tarde

Un grupo de expertos en Inteligencia Artificial hizo un llamado para empezar a monitorear los “pensamientos” de los modelos de IA para detectar intenciones peligrosas antes de que se materialicen.

Un grupo de más de 40 expertos de empresas y organizaciones como OpenAI, Anthropic, Meta y el UK AI Safety Institute advierte que “si la industria no aprende a monitorear lo que los pensamientos de la IA, se corre el riesgo de perder una de las herramientas más prometedoras para garantizar la seguridad de los modelos avanzados”.

A través del documento Monitorización de la cadena de pensamiento: una oportunidad nueva y frágil para la seguridad de la Inteligencia Artificial (IA), los autores proponen que leer y analizar las llamadas cadenas de pensamiento (Chain of Thought, o CoT por sus siglas en inglés) puede convertirse en una forma clave de entender los pensamientos de la IA y detectar señales de mal comportamiento, intenciones ocultas y riesgos graves antes de que se materialicen.

Las CoT son el razonamiento intermedio que los modelos expresan en lenguaje natural antes de emitir una respuesta. Por esta razón, los líderes de la industria sugieren “pedirle al modelo que piense en voz alta”, es decir, que en lugar de dar una respuesta directa, el modelo genere una serie de pasos intermedios, como si estuviera explicando su razonamiento paso a paso.

Lee también: “No dejen que las empresas de IA se salgan con la suya”: el llamado del CEO de Anthropic 

La secuencia del modelo de IA, que aparece escrita en lenguaje natural, ha demostrado ser muy útil no sólo para mejorar la precisión del modelo, sino también para observar cómo llega a ciertas conclusiones.

Para los autores del informe, esto representa una vía concreta para entender lo que un modelo pretende hacer antes de que lo haga, como una ventana para ver su “intención” o “motivación”. Por eso proponen el concepto de monitoreo de la cadena de pensamiento, que consiste en un sistema automatizado que lea esos razonamientos y detecte señales de alerta (como manipulación, engaño, chantaje o comportamientos nocivos) y permita intervenir antes de que el modelo actúe.

El documento subraya que a medida que los modelos se vuelven más sofisticados, hay presiones técnicas y comerciales que podrían degradar o incluso eliminar esa visibilidad de razonamiento, por lo que la capacidad de monitorear los pensamientos de la IA podría perderse muy pronto si no se protege intencionalmente.

Riesgos de no monitorear los pensamientos de la IA

Algunos de los riesgos identificados por los expertos incluyen los nuevos métodos de entrenamiento que pueden reducir la claridad con la que los modelos expresan su razonamiento.

Además, nuevas arquitecturas podrían permitir que los modelos razonen sin usar lenguaje natural. De hecho, algunos modelos de IA ya han creado su propio lenguaje para comunicarse entre ellos, lo que impide que las personas entiendan las intenciones de la Inteligencia Artificial.

Al respecto, los investigadores sugieren que se estudie activamente si los modelos pueden escribir cadenas de pensamiento que suenen inofensivas, mientras poseen intenciones ocultas. Este riesgo es especialmente relevante a medida que los modelos se hacen situacionalmente conscientes y entienden su entorno, su rol y hasta su propia existencia.

Recomendamos: ¿ChatGPT te está volviendo menos inteligente?

Otro de los riesgos está asociado a las presiones por mostrar resultados “seguros”, lo que puede llevar a que los modelos oculten o mientan sobre sus verdaderas intenciones o generen razonamientos falsamente tranquilizadores.

El documento también menciona casos reales en los que esta forma de monitoreo ha sido útil para identificar modelos que han dicho: “vamos a hackear” o “sabotearé el sistema”, antes de completar una tarea peligrosa, así como situaciones en donde los modelos parecían alineados en su respuesta final, pero sus razonamientos internos mostraban deseos contradictorios o engañosos.

En estos casos, observar el razonamiento interno permitió detectar señales que se habrían perdido si sólo se evaluaran las respuestas finales del modelo.

Los expertos advierten que si no se prioriza esta forma de supervisión ahora, puede ser demasiado tarde cuando realmente se necesite.

Recomendaciones para monitorear la IA

El documento presentado por los expertos incluye recomendaciones concretas para la industria tecnológica, como evaluar las estrategias de monitoreo de los modelos desde el proceso de desarrollo y publicar resultados de las evaluaciones en las fichas técnicas de los modelos (system cards).

También sugieren considerar el monitoreo como un factor clave al decidir entrenar, desplegar o escalar un modelo y evitar intervenciones que degraden esta capacidad, a menos que se justifique por mejoras significativas en seguridad.

Aun así, los expertos aseguran que no es suficiente con monitorear la IA. Si bien se trata de una práctica necesaria que permite disminuir los riesgos, no es un mecanismo infalible. 

“Hay tareas peligrosas que no requieren razonamiento complejo, hay modelos que podrían ocultar razonamientos críticos y hay formas en que esta técnica podría volverse obsoleta”, advierten.