¿OpenAI miente? Su modelo o3 obtiene puntuaciones inferiores a las prometidas

Epoch AI, el instituto de investigación responsable del conjunto de problemas FrontierMath, reveló que el modelo de IA o3 no supera el 25% de la prueba, como había dicho OpenAI en diciembre.

OpenAI ha generado dudas sobre su transparencia y prácticas de evaluación de su modelo de Inteligencia Artificial (IA) o3, lanzado en diciembre de 2024, debido a discrepancias entre sus propios resultados de referencia y los de terceros.

En su lanzamiento, OpenAI aseguró que el modelo superaba significativamente a la competencia, cuyo modelo mejor clasificado sólo respondía correctamente alrededor del 2 por ciento de los problemas de FrontierMath, un conjunto complejo de problemas matemáticos. Mientras que o3 podría superar el 25 por ciento.

Sin embargo, Epoch AI, el instituto de investigación responsable de FrontierMath, publicó los resultados de sus pruebas de referencia independientes de o3 y determinó que el modelo obtuvo una puntuación cercana al 10 por ciento, es decir, 15 por ciento por debajo de la puntuación más alta declarada por OpenAI.

Lee también: OpenAI publicó su plan económico para la UE

Los resultados de referencia que la compañía publicó en diciembre no corresponden exactamente a una mentira por parte de OpenAI. Epoch AI señaló que su configuración de pruebas probablemente difiere de la de OpenAI y que utilizó una versión actualizada de FrontierMath para sus evaluaciones.

“La diferencia entre nuestros resultados y los de OpenAI podría deberse a que OpenAI evaluó con un andamiaje interno más potente, utilizó más tiempo de prueba [computación], o porque esos resultados se ejecutaron en un subconjunto diferente de FrontierMath (los 180 problemas en frontiermath-2024-11-26 frente a los 290 problemas en frontiermath-2025-02-28-private)”, escribió Epoch AI.

ARC Prize Foundation, una organización que probó una versión preliminar de o3, aseguró en una publicación en X que “o3 es un modelo diferente adaptado para el uso de chat/producto”, lo que corrobora el informe de Epoch AI.

Mientras que Wenda Zhou, miembro del equipo técnico de OpenAI, afirmó que o3 está “más optimizado para casos de uso reales y su velocidad es mayor que la versión de demostración de o3 en diciembre. Como resultado, podría presentar disparidades en los parámetros de referencia”.