OpenAI lanza GPT-4o, su nuevo modelo de IA que permite conversar en tiempo real con ChatGPT

GPT-4o permite tener interacciones más naturales con ChatGPT gracias a que mejora sus capacidades para comprender y generar audio, texto y video en tiempo real.

La directora de Tecnología de OpenAI, Mira Murati, anunció el lanzamiento de la actualización de su modelo de lenguaje grande (LLM) insignia bautizado GPT-4o (“o” de “omni”).

Esta versión es hasta dos veces más rápida, inteligente y fácil de usar, mejorando sus capacidades para procesar texto, audio y video en tiempo real. Esto representa un paso importante para hacer más natural la interacción entre humanos y dispositivos.

GPT-4o permite tener una conversación de voz en tiempo real más fluida con ChatGPT, respondiendo a entradas de audio en tan sólo 232 milisegundos, un tiempo similar a la respuesta humana en una conversación.

Este nuevo modelo no sólo responde en tiempo real, incluso permitiendo interrumpir cuando el chatbot está hablando o procesando una entrada, sino que también puede percibir las emociones de su interlocutor y generar diferentes estilos de voz emotivos cuando se le solicita, dándole más dinamismo a la conversación.

Además, mejora su capacidad de visión para comprender o analizar videos, capturas de pantalla, fotografías, documentos y hasta gráficos que contengan texto e imágenes. Por ejemplo, puedes tomar una fotografía de un menú en un idioma diferente y hablar con GPT-4o para traducirla, o mostrarle en video un juego de deportes en vivo y pedirle que te explique las reglas.

GPT-4o también es capaz de realizar traducciones en tiempo real en más de 50 idiomas diferentes. Para lograr esta capacidad de comprensión, OpenAI entrenó un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.

También lee: Meta introduce su asistente virtual con IA Generativa y ejecutará Llama 3 en Snapdragon

Este modelo es hasta un 50 por ciento más económico y equiparable en rendimiento a GPT-4 Turbo en sus capacidades de texto en inglés y generación de código.

OpenAI comenzará a implementar desde hoy las nuevas capacidades de audio y visión de GPT-4o en la versión gratuita y Plus de ChatGPT, con algunos límites de uso dependiendo de la demanda, y pronto estará disponible para usuarios empresariales. Los desarrolladores ya pueden acceder a la API del modelo para empezar a experimentar con estas funcionalidades.

Además del lanzamiento de GPT-4o, OpenAI anunció la llegada de la nueva aplicación de ChatGPT para equipos de escritorio MacOS, diseñada para interactuar con el chatbot de forma instantánea directamente desde la computadora a través del comando de teclado (Opción + Espacio).

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies