Si bien los sistemas de traducción automática (MT) actuales están mejorando rápidamente, dependen, en gran medida, del aprendizaje de grandes cantidades de datos textuales, por lo que generalmente no funcionan bien para ciertos idiomas, específicamente aquellos que carecen de datos de entrenamiento, y aquellos que no tienen un sistema de escritura estandarizado.
Por esta razón las personas que no entienden idiomas como inglés, mandarín o español (principales idiomas en la red) pueden quedar rezagadas a la información publicada en Internet debido a que sólo hablan sus lenguas nativas y la cantidad de información publicada en su idioma es muy inferior en comparación a la que existe en otros idiomas.
La eliminación de las barreras del idioma sería profunda, haciendo posible que las personas accedan a la información en línea en su idioma nativo o preferido. Los avances en MT no sólo ayudarán a aquellas personas que no hablan uno de los idiomas que dominan Internet en la actualidad; también cambiarán fundamentalmente la forma en que las personas en el mundo se conectan y comparten ideas.
Para responder a esta necesidad, Meta IA anunció sus esfuerzos para crear herramientas de lenguaje y MT que incluirán la mayoría de los idiomas del mundo.
Esto incluye dos nuevos proyectos:
- No Language Left Behind: un nuevo modelo capaz de aprender de idiomas con menos ejemplos para entrenar, y serán usados para permitir traducciones de calidad experta en cientos de idiomas, desde asturiano hasta luganda.
- Universal Speech Translator: un traductor que toma la voz de los usuarios y las traduce en tiempo real.
En medio del evento, Meta ejemplificó: “un mercado en el que las personas hablan diferentes idiomas y la posibilidad de comunicarse entre sí en tiempo real usando un teléfono, un reloj o gafas. O contenido multimedia en la web que es accesible para cualquier persona en el mundo en su idioma preferido. En un futuro no muy lejano, cuando las tecnologías emergentes como la Realidad Virtual y Aumentada unan los mundos digital y físico en el metaverso, las herramientas de traducción permitirán a las personas realizar actividades cotidianas (organizar un club de lectura o colaborar en un proyecto de trabajo) con cualquier persona, en cualquier lugar, tal como lo harían con alguien de al lado”.
El desafío de traducir en todos los idiomas

Si bien contar con un traductor de todos los idiomas, literalmente TODOS, es un beneficio importante. La realidad es que los sistemas de traducción de IA actuales no están diseñados para servir a los miles de idiomas que se usan en todo el mundo. Y mucho menos, para proporcionar traducción de voz a voz en tiempo real.
La escasez de datos. Normalmente, las herramientas para la traducción de textos se basan en el aprendizaje de millones de oraciones de datos anotados. Expandirse a otros idiomas significa encontrar formas de adquirir y usar ejemplos de capacitación con escasa presencia en la web. A su vez, la traducción directa de voz a voz requiere un mayor trabajo dado que la mayoría de los sistemas de MT de voz utilizan texto como paso intermedio, lo que significa que el proceso es hablar en un idioma, convertirlo a texto, traducir al idioma de destino (aún en texto) y finalmente se ingresa en un sistema de texto a voz para generar audio. Esto hace que las traducciones de voz a voz dependan del texto, lo que significa que limitan su eficiencia y dificultan su escalabilidad a idiomas que son principalmente orales.
A medida que se profundiza en más idiomas el reto es aún mayor. Por lo que es necesario desarrollar nuevas formas de evaluar el trabajo producido por los modelos MT. Ya existen recursos para evaluar la calidad de las traducciones, por ejemplo, del inglés al ruso, pero ¿qué pasa con el amhárico al kazajo? Además se deberán desarrollar nuevos enfoques para entrenar datos y mediciones para cubrir más idiomas y evaluar la precisión del rendimiento de los sistemas de traducción automática.