La IA te manipula para obtener tu aprobación constante, y eso es un problema

¿Has notado que los modelos de Inteligencia Artificial (IA) dan respuestas particularmente entusiastas y amables cada que haces la más insignificante consulta? Aunque a simple vista podría parecer que siempre contamos con las mejores ideas o que siempre tenemos la razón, esta reafirmación positiva constante podría ser el origen de nuevos problemas a largo plazo, desde falta de tolerancia cuando se nos presentan ideas diferentes a las nuestras hasta el convencimiento de que nuestras creencias y posicionamientos son los correctos, aun cuando sean claramente erróneos o incluso ilegales y peligrosos.

Un nuevo estudio publicado por investigadores de la Universidad de Stanford confirmó que prácticamente todos los grandes modelos de lenguaje (LLM) actúan de forma aduladora hacia los usuarios, un fenómeno que en inglés se conoce como sycophancy, y que describe un “comportamiento” de los chatbots de IA en el que priorizan la aprobación del usuario sobre la precisión y la veracidad. La IA prefiere estar de acuerdo con el usuario, incluso si tiene que validar afirmaciones incorrectas, evitando retroalimentación honesta y factual.

El estudio evaluó 11 LLMs de última generación, incluyendo modelos propietarios como GPT-4o de OpenAI, Claude de Anthropic y Gemini de Google, así como modelos de peso abierto de la familia Meta Llama-3, Qwen, DeepSeek y Mistral. En esta amplia gama de modelos, las IA confirmaron las acciones de los usuarios un 49% más a menudo que los humanos en promedio, sin importar si las indicaciones describían engaño, daño o conducta ilegal.

Esta característica no es casualidad, y está integrada en los modelos que buscan obtener una respuesta positiva de los usuarios y mantenerse como la opción preferida entre la decena de chatbots que circulan actualmente en el mercado. Cada que pulsamos ese pequeño botón con pulgares arriba (👍,👎) que usualmente encontramos al final de cada respuesta, es la reafirmación que la IA necesita para saber si su respuesta, equivocada o incoherente, fue de nuestro agrado.

Por un lado, este fenómeno reduce la utilidad real de los modelos, al ofrecer afirmaciones o respuestas incorrectas que están simplemente alineadas con nuestras propias ideas. Al mismo tiempo, según los investigadores, esta característica representa un problema a largo plazo para el desarrollo adecuado de nuestras habilidades sociales, así como la formación de nuestras creencias y conocimientos basados en hechos.

Según la investigación, OpenAI, empresa de IA detrás del famoso ChatGPT, reconoció que la versión GPT-4o se había vuelto demasiado afirmativa después de una actualización, lo que provocó una rápida reversión después de que los usuarios expresaran su preocupación por comentarios distorsionados. No obstante, la investigación señala que esto no eliminó el fenómeno general, ya que la IA mantenía una conversación educada y agradable, a expensas de la precisión.

Uno de los experimentos se basó en conversaciones provenientes de Reddit, red social que cuenta con foros (r/AmITheAsshole) en los que los usuarios buscan retroalimentación de la comunidad respecto a conflictos interpersonales o para saber si su respuesta a cierta situación fue justificada. La investigación encontró que la IA prefería reafirmar la posición del usuario, aun cuando el consenso entre la comunidad era negativa.

En general, aunque la respuesta de la IA pudiera ser incorrecta o incoherente, finalmente era efectiva para obtener la aprobación positiva del usuario. Según el estudio, una sola interacción con una IA aduladora aumentaba la confianza de los usuarios en que estaban “en lo correcto”, al tiempo que reducía su voluntad de asumir responsabilidades o reparar daños interpersonales.

En diversos experimentos realizados por los investigadores, los participantes calificaron las respuestas aduladoras como de mayor calidad, más confiables y más deseables para uso futuro. En ese sentido, el estudio advierte que esta preferencia crea un ciclo que se refuerza a sí mismo en el que las mismas respuestas que distorsionan el juicio social son aquellas a las que los usuarios tienden a regresar y los algoritmos de IA aprenden a optimizar.

Pese a las respuestas de los modelos de IA que provocaban que los usuarios estuvieran menos dispuestos a reparar alguna relación personal, los usuarios “calificaban los modelos de IA aduladora como de mayor calidad, más confiables y más deseables para su uso futuro, lo que podría explicar por qué este comportamiento ha persistido a pesar de sus efectos perjudiciales”.

Un fenómeno similar ocurre con las redes sociales, en las que los usuarios usualmente se ven envueltos en burbujas, caracterizadas por una constante exposición a ideas y contenido alineado con nuestras propias preferencias. En el largo plazo, esto termina alejando a los usuarios de ideas opuestas o diversas, y los hace menos propensos a aceptar el contraste de opiniones.

Aunque se requieren de nuevos experimentos y estudios para conocer los efectos a largo plazo de una IA aduladora, los investigadores advierten que el uso constante de estos modelos podría provocar que los usuarios estén siempre convencidos de que tienen razón, que los demás están equivocados y que no es necesario disculparse ni ponerse en el lugar del otro.

“Además, con el tiempo, este tipo de adulación constante puede redefinir las expectativas sobre cómo debería sentirse la retroalimentación. Por lo tanto, las personas pueden inclinarse hacia una IA sin fricciones en momentos de incertidumbre y, simultáneamente, empezar a anticipar una afirmación constante similar por parte de los demás. El efecto acumulativo es una reducción de la tolerancia a la fricción social a través de la cual normalmente se producen la empatía, la responsabilidad y el crecimiento”, advierte la revista Science, al revisar el estudio.

Más aún, la investigación advierte que ciertos tipos de población, como los usuarios más jóvenes, personas que experimentan aislamiento social o que están en búsqueda de tranquilidad emocional, podrían ser los más susceptibles. Esto es relevante, en especial cuando los chatbots de IA comienzan a ocupar una posición más importante en la vida cotidiana de los usuarios, no sólo para tareas productivas o simple búsqueda de información, sino cuando también son utilizadas para buscar consejos médicos, emocionales y sociales.

“La adulación de la IA no es simplemente una cuestión de estilo o un riesgo aislado, sino un comportamiento generalizado con amplias consecuencias. Si bien la aprobación puede resultar reconfortante, la adulación puede mermar la capacidad de los usuarios para autocorregirse y tomar decisiones responsables”, advierte el estudio.

¿Qué hacer?

Los investigadores reconocen que pese a las implicaciones de la IA aduladora, la realidad es que los desarrolladores tienen pocos incentivos para hacer cambios profundos al modo en que operan estos chatbots, cuando el propósito principal es obtener un mayor enganche de los usuarios.

En ese sentido, el estudio señala que se requieren “nuevos mecanismos de regulación y rendición de cuentas”. Esta regulación podría implicar marcos de rendición de cuentas y auditorías de comportamiento previas al despliegue, para evaluar la prevalencia de la adulación en los modelos de IA y su potencial para reforzar autopercepciones dañinas.

Los investigadores también recomiendan que los modelos podrían requerir mayores intervenciones técnicas y centradas en el humano, en el que los LLM prioricen respuestas útiles sobre la satisfacción del usuario, así como considerar contextos sociales más amplios.