OpenAI lanza GPT-4o, su nuevo modelo de IA que permite conversar en tiempo real con ChatGPT
GPT-4o permite tener interacciones más naturales con ChatGPT gracias a que mejora sus capacidades para comprender y generar audio, texto y video en tiempo real.
La directora de Tecnología de OpenAI, Mira Murati, anunció el lanzamiento de la actualización de su modelo de lenguaje grande (LLM) insignia bautizado GPT-4o (“o” de “omni”).
Esta versión es hasta dos veces más rápida, inteligente y fácil de usar, mejorando sus capacidades para procesar texto, audio y video en tiempo real. Esto representa un paso importante para hacer más natural la interacción entre humanos y dispositivos.
GPT-4o permite tener una conversación de voz en tiempo real más fluida con ChatGPT, respondiendo a entradas de audio en tan sólo 232 milisegundos, un tiempo similar a la respuesta humana en una conversación.
Este nuevo modelo no sólo responde en tiempo real, incluso permitiendo interrumpir cuando el chatbot está hablando o procesando una entrada, sino que también puede percibir las emociones de su interlocutor y generar diferentes estilos de voz emotivos cuando se le solicita, dándole más dinamismo a la conversación.
Además, mejora su capacidad de visión para comprender o analizar videos, capturas de pantalla, fotografías, documentos y hasta gráficos que contengan texto e imágenes. Por ejemplo, puedes tomar una fotografía de un menú en un idioma diferente y hablar con GPT-4o para traducirla, o mostrarle en video un juego de deportes en vivo y pedirle que te explique las reglas.
GPT-4o también es capaz de realizar traducciones en tiempo real en más de 50 idiomas diferentes. Para lograr esta capacidad de comprensión, OpenAI entrenó un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.
También lee: Meta introduce su asistente virtual con IA Generativa y ejecutará Llama 3 en Snapdragon
Este modelo es hasta un 50 por ciento más económico y equiparable en rendimiento a GPT-4 Turbo en sus capacidades de texto en inglés y generación de código.
OpenAI comenzará a implementar desde hoy las nuevas capacidades de audio y visión de GPT-4o en la versión gratuita y Plus de ChatGPT, con algunos límites de uso dependiendo de la demanda, y pronto estará disponible para usuarios empresariales. Los desarrolladores ya pueden acceder a la API del modelo para empezar a experimentar con estas funcionalidades.
Además del lanzamiento de GPT-4o, OpenAI anunció la llegada de la nueva aplicación de ChatGPT para equipos de escritorio MacOS, diseñada para interactuar con el chatbot de forma instantánea directamente desde la computadora a través del comando de teclado (Opción + Espacio).