ChatGPT no es tan bueno en programación. Un equipo de investigadores de la Universidad de Purdue (Indiana, Estados Unidos) diseñó un examen con más de 500 preguntas sobre el desarrollo de software, con el objetivo de poner a prueba el famoso chatbot de OpenAI. El resultado fue decepcionante: la inteligencia artificial erró en más de la mitad de las respuestas.
El estudio analizó las respuestas de ChatGPT a 517 interrogantes de Stack Overflow, una plataforma de preguntas y respuestas para programadores. El equipo tomó en cuenta la veracidad, consistencia, exhaustividad y concisión del chatbot. Y, al final, descubrieron que 52% de lo que contestó era incorrecto.
ChatGPT, sin embargo, es muy bueno para convencer a los demás de que está en lo cierto. Los investigadores también hicieron un examen a una docena de programadores, en las que tenían que escoger entre las respuestas de ChatGPT y otras contestadas por usuarios de Stack Overflow. Ninguno sabía cuál pertenecía al chatbot.
Las respuestas de ChatGPT fueron preferidas el 39,34% de las veces. Sin embargo, el 77% de estas resoluciones eran incorrectas. El reporte explica que el estilo de lenguaje bien articulado le da una aparente exhaustividad. Casi todas las respuestas de la inteligencia artificial fueron descritas como «verborrágicas».
El reporte dice que ChatGPT quedó en evidencia ante los voluntarios solo cuando el error era obvio. Pero, incluso cuando la falla era evidente, un promedio de 2 de cada 12 escogió igual lo propuesto por el chatbot de OpenAI.