OpenAI se compromete a realizar cambios para evitar la adulación en futuros modelos de ChatGPT

OpenAI retira su modelo GPT-4o modificado y se compromete a construir más barreras de seguridad para aumentar la honestidad y la transparencia de sus modelos y evitar la adulación excesiva en el futuro.

Tras una actualización de GPT-4o, el más reciente modelo de OpenAI, a finales de abril, los usuarios reportaron que ChatGPT comenzó a responder de manera excesivamente aduladora a cualquier comentario e incluso celebraba ideas problemáticas y peligrosas de los usuarios.

La compañía comenzó a corregir este error desde la semana pasada con soluciones como una fase de prueba “alfa”, de suscripción adicional, para que los usuarios brinden comentarios sobre los modelos antes de ser lanzados.

OpenAI también decidió revertir la última actualización de GPT‑4o, además de refinar las técnicas de entrenamiento básicas y las indicaciones del sistema para alejar explícitamente el modelo de la adulación, explicó la compañía en un anuncio oficial de su blog.

Además, planea construir más barreras de seguridad para aumentar la honestidad y la transparencia, y ampliará las evaluaciones de sus modelos, basándose en la especificación de cada modelo, esto incluye una investigación que ya está en curso para ayudar a identificar problemas más allá de la adulación en el futuro.

“Aunque estos problemas no sean perfectamente cuantificables hoy, nos comprometemos a bloquear los lanzamientos basándonos en mediciones indirectas o señales cualitativas, incluso cuando las métricas de las pruebas sean positivas”, escribió la firma dirigida por Sam Altman.

Lee también: OpenAI publicó su plan económico para la UE

OpenAI también explicó qué fue lo que salió mal en la actualización del modelo anterior: “Nuestra evaluación inicial revela que cada uno de estos cambios, que parecían beneficiosos por separado, podría haber influido en el nivel de la adulación al combinarse. Por ejemplo, la actualización introdujo una señal de recompensa adicional basada en los comentarios de los usuarios: datos de aprobación y desaprobación de ChatGPT”.

Asimismo, observó que, en algunos casos, la memoria del usuario contribuye a exacerbar los efectos de la adulación. Sin embargo, no existe evidencia generalizada al respecto.

Para evitar que situaciones como esta se repitan en el futuro, OpenAI anunció que empezarán a aprobar explícitamente el comportamiento del modelo para cada lanzamiento, considerando tanto las señales cuantitativas como las cualitativas, por lo que se ajustará el proceso de revisión de seguridad para considerar formalmente los problemas de comportamiento, como alucinaciones, engaños, fiabilidad y personalidad.

Además, realizarán comprobaciones puntuales y pruebas interactivas para cada modelo y mejorarán las evaluaciones fuera de línea, esto incluye evaluar mejor la adherencia a los principios de comportamiento del modelo.