Meta apuesta por la Inteligencia Artificial generadora de voz
Voicebox es la nueva IA de Meta que puede imitar voces y replicarlas en diferentes idiomas a partir de muestras de audio y texto.
Meta anunció que ha desarrollado una nuevo modelo de Inteligencia Artificial Generativa llamado Voicebox, que en vez de producir texto o imágenes, genera clips de audio de voz.
Voicebox es uno de los primeros modelos en realizar tareas de generación del habla, como edición, sampling y estilización, sin necesidad de entrenamiento a través del aprendizaje en contexto, según explican los investigadores de Meta en un comunicado. Esto significa que Voicebox puede entender las instrucciones que le damos dentro de un texto y generar el audio correspondiente.
Voicebox fue entrenado con más de 50 mil horas de discursos y audiolibros de dominio público y está basado en un modelo llamado Flow Matching, que ha demostrado mejorar los modelos de difusión.
Entre las cosas que puede hacer Voicebox están producir fragmentos de audio de alta calidad en hasta seis idiomas. También puede editar un audio pregrabado, para eliminar ruidos de fondo como el ladrido de un perro o la bocina de un coche.
Además, puede editar lo que dice una persona en un audio, como sustituir palabras mal pronunciadas, cambiar el tono y hasta el acento, generando diferentes muestras de habla más representativas a como hablan las personas en el mundo real.
Por ejemplo, Voicebox puede cambiar el discurso de una voz femenina a una masculina, darle un acento mexicano o argentino, o darle un tono más serio o más divertido.
Eso no es todo, también puede transferir el estilo entre idiomas, lo que significa que puede generar una voz en otro idioma que suene como la original.
Meta dice que se le puede dar a Voicebox una muestra de la voz de alguien junto con un fragmento de texto y el modelo puede leer este texto y generar un audio, incluso si estos están en diferentes idiomas.
Por ejemplo, puede generar un audio en inglés con una voz que tenga el mismo estilo que la voz en español. Los idiomas que puede usar Voicebox son inglés, francés, alemán, español, polaco y portugués.
De acuerdo con la empresa, esta tecnología podrá usarse en el futuro para ayudar a “creadores a editar fácilmente pistas de audio, permitir a las personas con discapacidad visual escuchar los mensajes escritos de sus amigos en sus propias voces y que las personas se comuniquen en cualquier idioma extranjero usando su propia voz”.
El gigante tecnológico asegura que Voicebox es hasta 20 veces más rápido que el actual modelo de conversión de voz a texto de última generación VALL-E, desarrollado por Microsoft.
A pesar de los avances que promete Voicebox, Meta está consciente de que es una tecnología que tiene un potencial uso dañino en manos inadecuadas, como la posibilidad de usarse en extorsiones telefónicas o deep fakes.
Por ello, el modelo no está disponible para el público general, sólo para investigadores. Además, la empresa dice que ha desarrollado un clasificador que puede distinguir entre voz auténtica y audio generado con Voicebox para mitigar estos posibles riesgos.