OpenAI lanza GPT-4o, su nuevo modelo de IA que permite conversar en tiempo real con ChatGPT

GPT-4o permite tener interacciones más naturales con ChatGPT gracias a que mejora sus capacidades para comprender y generar audio, texto y video en tiempo real.

ChatGPTGPT-4omodelos de lenguaje

Valeria Romero May 13, 2024

La directora de Tecnología de OpenAI, Mira Murati, anunció el lanzamiento de la actualización de su modelo de lenguaje grande (LLM) insignia bautizado GPT-4o (“o” de “omni”).

Esta versión es hasta dos veces más rápida, inteligente y fácil de usar, mejorando sus capacidades para procesar texto, audio y video en tiempo real. Esto representa un paso importante para hacer más natural la interacción entre humanos y dispositivos.

GPT-4o permite tener una conversación de voz en tiempo real más fluida con ChatGPT, respondiendo a entradas de audio en tan sólo 232 milisegundos, un tiempo similar a la respuesta humana en una conversación.

Este nuevo modelo no sólo responde en tiempo real, incluso permitiendo interrumpir cuando el chatbot está hablando o procesando una entrada, sino que también puede percibir las emociones de su interlocutor y generar diferentes estilos de voz emotivos cuando se le solicita, dándole más dinamismo a la conversación.

Además, mejora su capacidad de visión para comprender o analizar videos, capturas de pantalla, fotografías, documentos y hasta gráficos que contengan texto e imágenes. Por ejemplo, puedes tomar una fotografía de un menú en un idioma diferente y hablar con GPT-4o para traducirla, o mostrarle en video un juego de deportes en vivo y pedirle que te explique las reglas.

GPT-4o también es capaz de realizar traducciones en tiempo real en más de 50 idiomas diferentes. Para lograr esta capacidad de comprensión, OpenAI entrenó un único modelo nuevo de extremo a extremo en texto, visión y audio, lo que significa que todas las entradas y salidas son procesadas por la misma red neuronal.

También lee: Meta introduce su asistente virtual con IA Generativa y ejecutará Llama 3 en Snapdragon

Este modelo es hasta un 50 por ciento más económico y equiparable en rendimiento a GPT-4 Turbo en sus capacidades de texto en inglés y generación de código.

OpenAI comenzará a implementar desde hoy las nuevas capacidades de audio y visión de GPT-4o en la versión gratuita y Plus de ChatGPT, con algunos límites de uso dependiendo de la demanda, y pronto estará disponible para usuarios empresariales. Los desarrolladores ya pueden acceder a la API del modelo para empezar a experimentar con estas funcionalidades.

Además del lanzamiento de GPT-4o, OpenAI anunció la llegada de la nueva aplicación de ChatGPT para equipos de escritorio MacOS, diseñada para interactuar con el chatbot de forma instantánea directamente desde la computadora a través del comando de teclado (Opción + Espacio).

L	M	X	J	V	S	D
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30