Modelos de IA de OpenAI y Google logran oro en olimpiada de matemáticas, demostrando nuevos niveles de razonamiento

Los modelos de Inteligencia Artificial (IA) de OpenAI y Google obtuvieron cada una la medalla de oro la Olimpiada Internacional de Matemáticas (OIM), lo que demuestra una nueva etapa de esta tecnología en su capacidad de razonamiento y memoria persistente, que permite resolver problemas más complejos y de forma similar a un humano.

En un comunicado, Google detalla que una versión avanzada de Gemini Deep Think resolvió cinco de los seis problemas de la OIM, obteniendo 35 puntos de 42, lo que representa un desempeño que le mereció la medalla de oro. Según la compañía, los evaluadores de la OIM consideraron los resultados claros, precisos y, en su mayoría, fáciles de seguir.

“Nuestro modelo funcionó de principio a fin en lenguaje natural, produciendo rigurosas demostraciones matemáticas directamente a partir de las descripciones oficiales de los problemas, ¡y todo ello dentro del límite de 4.5 horas del concurso!”, señaló Demis Hassabis, cofundador y CEO de DeepMind, en un post en X.

Según Google, el modelo utilizado Gemini Deep Think incluye ahora un modo de razonamiento mejorado para problemas complejos, además de técnicas modernas como el pensamiento paralelo. Esta configuración permite que el modelo explore y combine simultáneamente múltiples soluciones posibles antes de dar una respuesta final, en lugar de seguir una única cadena de pensamiento lineal. Asimismo, este año el modelo pudo resolver los problemas dados en lenguaje natural, a diferencia de años anteriores, cuando debía recibir las instrucciones traducidas a su propio lenguaje.

Por su parte, Alexander Wei, investigador científico de OpenAI, anunció también en X que su modelo más reciente de razonamiento obtuvo la medalla de oro al resolver cinco de seis problemas del concurso con un puntaje total de 35 sobre 42. El modelo siguió las mismas reglas que los competidores humanos: sin conexión a Internet, siguiendo únicamente los problemas planteados y escribiendo la prueba en lenguaje natural.

“Alcanzamos este nivel de capacidad no a través de una metodología estrecha y específica para una tarea, sino abriendo nuevos caminos en el aprendizaje por refuerzo de propósito general y el escalado computacional en tiempo de prueba”, señaló en su post.

El investigador explicó la importancia de este hito para el modelo de razonamiento de OpenAI: en primer lugar, esto representa un avance en los niveles de pensamiento creativo sostenido; y en segundo lugar, la entrega de las pruebas de resolución de los problemas demuestra que el modelo puede elaborar argumentos intrincados y herméticos al nivel de los matemáticos humanos.

La competencia de matemáticas, fundada en 1959, está compuesta principalmente por matemáticos preuniversitarios de élite que compiten por resolver problemas de álgebra, combinatoria, geometría y teoría de números. Sin embargo, recientemente ha servido también como un reto aspiracional para los más avanzados sistemas de IA, donde pueden poner a prueba las capacidades de razonamiento de sus modelos.