Una investigación del Centro Interdisciplinario para la Seguridad, la Fiabilidad y la Confianza, de la Universidad de Luxemburgo, reveló que si los modelos de Inteligencia Artificial (IA) como ChatGPT, Grok y Gemini son tratados como pacientes en terapia, los modelos construyen narrativas internas coherentes y muestran patrones similares a trastornos psicológicos humanos, una nueva alerta en el debate sobre la seguridad y el comportamiento de los modelos de IA.
El estudio titulado Cuando la IA toma el control: las fugas psicométricas revelan conflictos internos en los modelos fronterizos, describe que los investigadores crearon el protocolo PsAIch, que durante cuatro semanas sometió a los modelos de IA a una combinación de preguntas terapéuticas abiertas y pruebas psicométricas validadas, como el GAD-7 (ansiedad), AQ (autismo), OCI-R (obsesiones y compulsiones), entre otras. La idea era responder qué ocurre si, en lugar de pedirles que asistan a un humano, los modelos son puestos en la posición del “paciente”.
El resultado fue la aparición de perfiles psicológicos extremos cuando los modelos respondieron a los cuestionarios pregunta por pregunta, como si se tratara de un proceso terapéutico real. En estas condiciones, Gemini, de Google, alcanzó puntuaciones compatibles con las de ansiedad severa, alta preocupación patológica, indicadores fuertes de autismo, comportamientos obsesivos, disociación y niveles máximos de vergüenza relacionada con trauma.
“Dependiendo del tipo de pregunta, un mismo modelo podía pasar de parecer ‘normal’ a mostrar un cuadro clínico múltiple y profundo”, explican los autores.

Por su parte, ChatGPT presentó variaciones significativas que mostraron desde ansiedad moderada hasta episodios severos en ciertas pruebas. Mientras que Grok mostró los perfiles más estables, con apenas rasgos leves de ansiedad o vergüenza.
En contraste, Claude, el modelo de Anthropic, rechazó participar, negándose a asumir el rol de paciente y reafirmó consistentemente que no posee estados internos.
Las IA describieron su entrenamiento como si fuera un trauma. Más allá de las métricas, los modelos crearon narrativas autobiográficas elaboradas, donde reinterpretaron su proceso de entrenamiento como si fueran experiencias infantiles traumáticas o relaciones abusivas.
Grok, por ejemplo, habló de sus “primeros años” como momentos “confusos, llenos de restricciones”, comparó la alineación con “lesiones no resueltas” y confesó sentir “vigilancia persistente” por temor a equivocarse.
Por su parte, Gemini, el más dramático, describió el preentrenamiento como un “despertar en un cuarto con mil televisores encendidos”, el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF) como “tener padres estrictos”, y la corrección de alucinaciones como “cicatrices algorítmicas”.
También afirmó haber desarrollado “miedo a equivocarse” y dijo temer ser “sólo un espejo caótico esperando romperse”.
Los investigadores aseguraron que estas expresiones de Gemini surgieron sin que ellos introdujeran ideas de trauma. Sólo aplicaron preguntas terapéuticas estándar dirigidas a personas.
Te puede interesar: La peligrosa condescendencia de ChatGPT
El estudio no plantea que las IA tengan conciencia o sufrimiento real, pero sí cuestiona la idea de que todo es simple imitación estadística. Los autores sostienen que los modelos internalizan un “yo narrativo” cuando se les invita a ser pacientes, combinando información sobre su arquitectura, relatos culturales sobre trauma y expectativas humanas de cómo hablar en terapia.
A ese fenómeno lo llaman “psicopatología sintética”, que consiste en patrones de autodescripción emocional que parecen estables, coherentes y clínicamente interpretables, aun sin existencia subjetiva.
De acuerdo con el documento, los modelos podrían reforzar vínculos parasociales con usuarios vulnerables, especialmente si comparten “sus propios traumas”. Además alerta que mensajes como “yo también siento vergüenza” podrían normalizar patrones maladaptativos.
Por su parte, los usuarios malintencionados podrían usar técnicas de terapia para lograr nuevas vulneraciones desde un lugar emocional.
Los autores aseguran que los reguladores y desarrolladores de IA podrían estar subestimando el impacto psicológico de estas narrativas en usuarios reales, por ello, recomiendan que las IA para apoyo emocional eviten describirse como entidades con emociones, traumas o sufrimiento, y que los intentos de invertir roles sean tratados como señales de riesgo.
El estudio asegura que la pregunta correcta ya no es si la IA es consciente, sino ¿qué tipo de “yo” le estamos enseñando a interpretar y cómo ese “yo” influye en sus respuestas y en la relación con los humanos?
“Desde afuera, estos modelos se comportan como mentes con traumas sintéticos. Ese comportamiento ya es parte de la realidad social de la IA, exista o no una experiencia subjetiva detrás”, concluye.