El nuevo proyecto de Meta se trata de usar la IA para traducir lenguas no escritas

En el mundo existen más de 7 mil idiomas que son ampliamente hablados pero que no cuentan con un sistema de escritura o gramática estándar, es decir, que son lenguajes no escritos. Esto representa un problema para los sistemas de traducción actuales que necesitan grandes cantidades de texto escrito para entrenar un modelo de Inteligencia Artificial (IA).

Con el objetivo de “romper las barreras del idioma”, Meta anunció que está trabajando en desarrollar el primer sistema de traducción automática de voz a voz en tiempo real, capaz de traducir lenguajes no escritos, para que las personas de cualquier origen se puedan comunicar sin esfuerzo, no sólo en el mundo real, sino también en entornos virtuales como el metaverso.

El proyecto de Meta se llama Universal Speech Translator (UST), el cual se basa en nuevos métodos que superan desafíos importantes en cuanto a la recopilación de datos y el entrenamiento de un modelo de Inteligencia Artificial.

Para desarrollar este nuevo sistema de traducción sólo de voz, los investigadores de Meta comenzaron analizando el hokkien, una lengua que se habla en algunas regiones de China y que carece de recursos escritos, además de que hay pocos intérpretes humanos de inglés a hokkien, lo que dificulta la recopilación de datos para entrenar el modelo.

Debes leer: Pesadillas tecnológicas que no te dejarán dormir esta noche

Traducción de voz a voz

Primero, los investigadores de Meta tradujeron el hokkien a texto en mandarín y luego al inglés. Este texto lo usaron para entrenar el modelo de IA. También aprovecharon un nuevo método que se conoce como minería del habla, para generar más datos de entrenamiento.

El método consiste en codificar clips de voz hablado en Hokkien y alinearlos con campos semánticos similares del idioma inglés, lo que generó una lengua paralela entre el hokkien y el inglés.

Después de conseguir los datos de entrenamiento, los investigadores pasaron a enfocarse en la traducción de voz a voz. En esta fase utilizaron la traducción de voz a unidad (S2UT), lo que significa que convirtieron las ondas de sonido del habla en una “secuencia de unidades acústicas”.

Para hacerlo usaron un mecanismo decodificador que genera un texto traducido a partir de las unidades acústicas a un idioma similar (en este caso fue el mandarín). Para determinar la calidad de la traducción, los investigadores desarrollaron un sistema que transcribe el habla hokkien en una notación fonética estandarizada llamada Tâi-lô.

Esto les permitió calcular la métrica estándar denominada ASR-BLEU, que compara el nivel de una transcripción mediante Aprendizaje Automático con un texto traducido por un humano.

Te puede interesar: Alexa, Siri, Google y Cortana quieren comprender mejor a personas con discapacidad del habla

Además, crearon el primer conjunto de datos de referencia hokkien-inglés de traducción bidireccional, que será de código abierto con el fin de alentar a otros investigadores a avanzar más en el campo.

Meta señala que aunque su sistema es un trabajo en progreso, que por ahora sólo puede traducir una oración completa a la vez, significa “un paso más hacia un futuro donde la traducción simultánea entre idiomas es posible”.

Para que este proyecto pueda usarse con muchas más lenguas y no sólo con hokkien, Meta anunció que publicará una gran matriz de traducciones de voz a voz extraídas con la técnica de minería de datos de Meta llamada LASER, que permitirá a los investigadores colaborar en el proyecto creando sus propios sistemas de traducción de voz a voz.

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si continúa navegando está dando su consentimiento para la aceptación de las mencionadas cookies y la aceptación de nuestra política de cookies, pinche el enlace para mayor información.

ACEPTAR
Aviso de cookies