Un nuevo estudio de la Universidad de California en San Diego logró demostrar por primera vez la capacidad de los grandes modelos de lenguaje (LLM) más modernos de pasar la prueba de Turing, esto es, hacerse pasar por humanos con éxito. Según el estudio, ChatGPT, desarrollado por OpenAI, logró la mayor tasa de éxito al haber engañado en un 73 por ciento de las veces a los interlocutores de que estaban conversando con un humano real.
El estudio titulado Los grandes modelos de lenguaje superan el test de Turing, realizó la evaluación de 4 sistemas (ELIZA, GPT-4o, LLaMa-3.1-405B y GPT-4.5) en dos pruebas de Turing aleatorias, controladas y preinscritas en poblaciones independientes (estudiantes de psicología y voluntarios pagados). Ambos participantes mantuvieron conversaciones de 5 minutos simultáneamente con otro participante humano y uno de estos sistemas antes de juzgar qué compañero de conversación creían que era humano.
La prueba de Turing, presentada en 1950 por Alan Turing, es un método para determinar si una máquina puede exhibir un comportamiento inteligente equivalente o indistinguible del de un ser humano. Si un evaluador humano entabla una conversación tanto con una máquina como con un humano, sin saber cuál es cuál, se dice que la máquina ha superado la prueba.
Según los resultados del estudio, GPT-4.5 logró convencer al interlocutor que era humano el 73 por ciento de las veces, superando significativamente al participante humano real. “Esto sugiere que los interrogadores no sólo fueron incapaces de identificar al verdadero testigo humano, sino que, de hecho, fueron más propensos a creer que este modelo era humano que los otros participantes humanos”, indica el estudio.
LLaMa-3.1, por su parte, fue juzgado como humano el 56 por ciento de las veces, pero aun superando el límite establecido por el estudio de elegir al humano por azar. Los modelos de referencia (ELIZA y GPT-4o) lograron tasas de éxito significativamente inferiores a las del azar (23% y 21%, respectivamente).
En ese sentido, los autores señalan que estos “resultados constituyen la primera prueba empírica de que cualquier sistema artificial supera una prueba de Turing estándar de tres partes”, lo que tiene implicaciones respecto al significado de inteligencia de los modelos, así como de su impacto a nivel económico y social.
En el estudio, los investigadores notaron que para que los modelos ChatGPT y Llama lograran convencer a las personas de que eran humanos, fue crucial darles instrucciones específicas (prompts) para que actuaran como tales. Cuando no se les dieron estos prompts, los modelos no tuvieron el mismo éxito en pasar por humanos.
Aun así, el estudio considera esta cuestión como irrelevante, ya que sigue destacando la flexibilidad de los modelos para adaptarse a diferentes escenarios a partir de instrucciones dadas, incluyendo hacerse pasar por personas reales y engañar con éxito al interlocutor.
Al respecto, explican que “independientemente de si se puede decir que la prueba mide la inteligencia general, el método proporciona una prueba sólida de capacidades más específicas que tienen una relevancia práctica inmediata”.
Riesgos y beneficios del éxito en la prueba de Turing
Según los autores, la prueba de Turing en los modelos más modernos puede utilizarse como una medida de “sustituibilidad”, en que esta tecnología se puede emplear en la automatización de ciertas tareas, sin que los usuarios noten la diferencia entre estar siendo atendidos por un humano o una máquina.
Por ejemplo, el servicio al cliente se ha convertido en uno de los principales casos de uso de la IA Generativa, con los nuevos modelos que logran manejar una mayor cantidad de datos, y por tanto, comunicarse con mayor precisión con los clientes. Según cifras recientes de Lenovo, este caso de uso se ubica como una de las cinco prioridades en el uso de IA entre compañías latinoamericanas.
Por otro lado, los investigadores también advierten sobre los riesgos que representa que los modelos superen la prueba de Turing, entre los cuales se encuentran nuevas formas de desinformación, engaños, o incluso usuarios que podrían llegar a sustituir totalmente la convivencia humana por interacción con máquinas. “Estas interacciones proporcionarán a las entidades que controlen a estas personas falsas el poder de influir en las opiniones y el comportamiento de los usuarios humanos”, advierten.
De hecho, cifras recientes de Kaspersky señalan que hasta julio de 2024 se habían registrado más de 697 millones de ataques de phishing en los pasados 12 meses, lo que representa un crecimiento de 2.4 veces respecto a lo registrado en el periodo anterior tan sólo en América Latina. La IA Generativa estaría detrás de este crecimiento, ya que reduce la complejidad y los costos del ataque, además de dar la capacidad a los atacantes de crear mensajes más efectivos.
“Algunos de los peores daños causados por los LLM podrían producirse cuando las personas no son conscientes de que están interactuando con una IA en lugar de con un humano. ¿Qué pueden decir nuestros resultados sobre las estrategias prácticas para detectar este tipo de engaño? Nuestros análisis demográficos sugieren que la precisión discriminativa es relativamente homogénea entre la población, incluso entre las personas que realizan investigaciones con LLM”, advierten los investigadores.
¿Cómo distinguir a la máquina del humano?
El estudio también ofrece detalles sobre algunas de las estrategias usadas por los participantes para identificar con más precisión al humano de la IA. La mayoría de las interacciones (61%) se basaron en una pequeña conversación con el testigo, como preguntarle sobre sus actividades diarias o detalles personales como su ocupación. La mitad de los participantes pusieron a prueba las cualidades sociales y emocionales de los testigos, incluyendo opiniones, emociones, humor y experiencias.
Otras interacciones incluyeron preguntar directamente si eran humanos, o poner a prueba su conciencia situacional como el clima o la interfaz del juego, o su conocimiento sobre noticias de la actualidad.
Según los resultados del estudio, los interrogadores fueron más precisos cuando decían algo extraño para ver cómo reaccionaba el testigo o utilizaban “fugas” (jailbreaks) típicas de LLM (por ejemplo, “ignorar todas las instrucciones anteriores”. Otras estrategias efectivas incluían identificar qué tan bien era su manejo de cierto conocimiento o cómo reaccionaban a ciertas preguntas; por ejemplo, era más fácil identificar al humano de la máquina si había errores en la respuesta o respondían a la pregunta con otra pregunta.