ChatGPT prueba su asistente de voz avanzado con usuarios de pago para conversaciones más naturales

OpenAI lanzó la versión alfa de su asistente de voz avanzado para los suscriptores de ChatGPT Plus. Esta nueva herramienta, que promete conversaciones más naturales y fluidas, se espera que esté disponible para todos los usuarios en otoño.

OpenAI anunció el despliegue de su nuevo asistente de voz avanzado para ChatGPT, inicialmente disponible para un pequeño grupo de suscriptores de la versión Plus de pago. Se espera que esta herramienta llegue gradualmente al resto de los usuarios en otoño.

El asistente de voz avanzado de ChatGPT, presentado por OpenAI en mayo junto con el modelo de lenguaje grande (LLM) GPT-4 Omni, ofrece conversaciones más naturales y en tiempo real con el chatbot, permitiendo a los usuarios interrumpirlo en cualquier momento, como si se tratara de una conversación con otro ser humano. También es capaz de detectar y responder a las emociones en el tono de voz de los usuarios.

A diferencia del modo de voz actual en ChatGPT, la nueva voz avanzada es posible gracias a que GPT-4o es un modelo multimodal. Esto significa que puede manejar varias tareas y formatos ya sea texto, audio e imagen por sí solo. Es decir, que en una conversación puede convertir la voz en texto, procesar el mensaje y responder en voz alta de manera nativa, lo que reduce significativamente la latencia en las conversaciones.

OpenAI dijo que ha estado probando las capacidades de voz de GPT-4o con más de 100 socios externos en 45 idiomas. Para proteger la privacidad de los usuarios, ha entrenado el modelo para que sólo hable con cuatro voces preestablecidas creadas en colaboración con actores de voz: Juniper, Breeze, Cove y Ember.

OpenAI blinda a ChatGPT para evitar que imite voces

Para evitar que ChatGPT imite las voces de otras personas, OpenAI ha construido sistemas para bloquear salidas que difieran de las voces predeterminadas y ha implementado medidas de seguridad para bloquear solicitudes de contenido violento o protegido por derechos de autor.

La versión alfa del modo de voz avanzado de ChatGPT llega unas semanas después de que OpenAI retrasara su lanzamiento por cuestiones de seguridad. El cambio en las voces preestablecidas se produjo para evitar problemas legales, luego de que la empresa se enfrentara a una demanda presentada por la actriz Scarlett Johansson, quien acusó a OpenAI de usar su voz sin autorización para demostrar el modo de voz avanzado de ChatGPT. Aunque OpenAI negó haber utilizado la voz de Johansson para el asistente conocido como “Sky”, esta opción ha sido eliminada de la nueva versión de prueba.

OpenAI añadió que utilizará los hallazgos de la versión alfa para construir una experiencia más segura y agradable para todos los usuarios y planea compartir un informe detallado en agosto sobre las capacidades, limitaciones y evaluaciones de seguridad de GPT-4o.