Facebook anunció el primer modelo único de traducción automática multilingüe (MMT, por sus siglas en inglés) masivo que puede traducir directamente 100 por 100 idiomas en cualquier dirección sin depender únicamente de datos centrados en inglés.
La hazaña se logró luego de años de investigación en la compañía y, sobre todo, ante la actual necesidad de mantener a sus millones de usuarios mundiales informados sobre lo que acontece en torno a la Covid-19, y evitar que caigan en la infodemia.
Hasta ahora, Facebook impulsa un promedio de 20 mil millones de traducciones al día en su News Feed mediante la traducción automática (MT), para satisfacer la demanda de las publicaciones hechas en la red social en más de 160 idiomas.
“Nuestro modelo multilingüe único funciona tan bien como los modelos bilingües tradicionales y logró una mejora de 10 puntos BLEU (Evaluación de un sistema de traducción automática) sobre los modelos multilingües centrados en el inglés”, sostuvo el gigante tecnológico en un comunicado.
El primer conjunto de datos del MMT asciende a 7 mil 500 millones de pares de oraciones en 100 idiomas, esto fue posible gracias a la combinación de recursos de minería de datos complementarios que se desarrollaron durante los últimos años, incluidos ccAligned, ccMatrix y LASER.
Como parte del esfuerzo, la compañía creó LASER 2.0 y mejoró la identificación del lenguaje fastText, el cual mejora la calidad de la minería e incluye scripts de capacitación y evaluación de código abierto.
Para conectar los idiomas de diferentes grupos, se identificó una pequeña cantidad de idiomas puente, que generalmente son de uno a tres idiomas principales de cada grupo, lo que derivó en los poco más de 7 mil millones de pares de oraciones.
También se encontraron resultados positivos en configuraciones en las que no hay datos de entrenamiento disponibles como lo podrían ser el francés/inglés y alemán/sueco, logrando traducir sin errores.
Facebook apuntó que continuará trabajando para construir un modelo universal que pueda comprender todos los lenguajes en diferentes tareas. “Un modelo único que admita todos los idiomas, dialectos y modalidades nos ayudará a servir mejor a más personas, mantener las traducciones actualizadas y crear nuevas experiencias para miles de millones de personas por igual”, agregó.