Aún existe una gran brecha entre las lenguas indígenas y la Inteligencia Artificial (IA): en el mundo se hablan más de 7,000 lenguas, pero la abrumadora mayoría (95%) de los datos que la alimentan está en una sola: la inglesa. Esto ha hecho que, en los últimos años y, sobre todo, en los últimos meses, surjan iniciativas para fomentar una IA multilingüe.
La IA Generativa tiene un rendimiento muy bajo en lenguas indígenas americanas, que oscila en un rango que va del “lejos del aprobado” hasta “prácticamente incapaz”, revela un nuevo informe del BID Lab, Microsoft y LLYC.
Bajo rendimiento en lenguas indígenas
El informe El desempeño de la Inteligencia Artificial en el uso de lenguas indígenas americanas, desarrollado en el marco de la iniciativa fAIr LAC, reveló que el quechua, una lengua indígena hablada en Sudamérica, especialmente en la región de los Andes, tuvo el mejor rendimiento, con un promedio de 3.72, aunque quedó lejos de lo necesario para considerarse aprobado, mientras que en el quiché, una lengua mayense hablada en Guatemala, obtuvo un puntaje de 1.25, por lo que es “prácticamente incapaz”.
El estudio, que analizó siete lenguas indígenas y cinco Inteligencias Artificiales, también descubrió que la comprensión de la tarea por parte de la IA es muy deficiente (2.3/10) cuando se expresa en lengua indígena. Además, la fluidez en la expresión de las lenguas indígenas americanas resultó cuatro veces menor al compararse con el español.
Lee también: La IA no habla español: 95% de los datos que la alimentan están en inglés
Adicionalmente, reveló que los modelos propietarios son el doble (2.2x) de eficaces que los abiertos en las lenguas indígenas.
Plan de acción: estrategias y recomendaciones
El documento recoge la conclusión dual y paradójica de que la IA representa una amenaza importante para las lenguas indígenas si no se aborda su entrenamiento con conocimiento, al tiempo que supone una oportunidad para reducir el aislamiento y dar visibilidad a pueblos y culturas indígenas.
Por ello, no se queda sólo con ese diagnóstico desalentador, sino que propone 21 estrategias de inclusión tecnológica para aumentar la representación y el desempeño de la IA Generativa en lenguas indígenas, agrupadas en siete ejes:
- Impulsar la comunicación digital en lenguas indígenas.
- Preservar y ampliar el contenido existente en lenguas indígenas.
- Normalizar el uso de lenguas indígenas y reducir la fragmentación.
- Impulsar el desarrollo de herramientas habilitadoras.
- Aprovechar iniciativas de inclusión lingüística de grandes empresas.
- Ampliar la conectividad de las comunidades indígenas.
- Incrementar la localización lingüística de los servicios de las Big Tech.
Asimismo, un plan de acción con seis recomendaciones:
- Creación de un consorcio internacional impulsor del proyecto.
- Creación del equipo de trabajo de implementación.
- Creación de un evento de alta visibilidad para comunicar la iniciativa.
- Hackaton de innovación tecnológica por una IA en lenguas indígenas.
- Desarrollo de alianzas estratégicas locales.
- Ejecución de proyectos locales y monitorización del progreso de la iniciativa.