Amazon presentó Nova Sonic, un nuevo modelo de voz con Inteligencia Artificial (IA) que unifica la comprensión y la generación de voz para mantener diálogos más humanos en aplicaciones de IA e incrementar la comprensión de los matices de la conversación humana como pausas, vacilaciones naturales del hablante, esperas para hablar en el momento oportuno y la gestión eficaz de las interrupciones.
Nova Sonic simplifica el desarrollo de aplicaciones de voz, como la automatización de llamadas de atención al cliente, y agentes de IA en diferentes sectores, como empresas, viajes, educación, salud y entretenimiento, entre otros.
Este modelo está disponible a través de una nueva API en Amazon Bedrock, y nació “para que la IA de voz genere aún más valor real para los clientes, por lo que deben tener en cuenta los matices y la complejidad de la conversación humana”, detalla el anuncio de Amazon.
Si bien las palabras tienen su propio significado, la verdad es que también pueden resultar insulsas sin un contexto acústico que les dé profundidad, lo que representa un reto considerable para la IA.
El modelo tradicional para desarrollar aplicaciones de voz implica una compleja orquestación de múltiples modelos, como el reconocimiento de voz para convertirla a texto, los grandes modelos lingüísticos (LLM) para comprender y generar respuestas, y la conversión de texto a voz. De acuerdo con Amazon, este enfoque está “fragmentado (…), aumenta la complejidad del desarrollo e impide preservar el contexto acústico crucial y los matices como el tono, la prosodia y el estilo de habla, esenciales para las conversaciones naturales”.
Para no perder el contexto acústico, Nova Sonic unifica las capacidades de comprensión y generación en un solo modelo. Esta unificación permite al modelo adaptar la respuesta de voz generada al contexto acústico con tono y estilo acorde a la conversación, lo que resulta en un diálogo más natural.
Una demostración de Amazon del uso de Nova Sonic como asistente de IA empresarial evidencia cómo el asistente genera informes y comparte datos precisos en un tono natural y conversacional, a la vez que formula preguntas de seguimiento relevantes de forma proactiva. El diálogo fluido permite intercambios multi-turno sin necesidad de que el interlocutor establezca un contexto explícito.