La IA no habla español: 95% de los datos que la alimentan están en inglés
Durante un foro organizado por la RAE, especialistas advirtieron la necesidad de impulsar el desarrollo de modelos de IA Generativa nativos del español.
Aunque los modelos de Inteligencia Artificial (IA) Generativa, como ChatGPT y Gemini, están disponibles en los países hispanos, en realidad no hablan español o al menos no de forma nativa.
Más del 95 por ciento de los datos utilizados en el entrenamiento de ChatGPT-3, el predecesor de la versión más actual del modelo de OpenAI, están en inglés.
El 5 por ciento restante se reparte entre francés, español, chino y otras lenguas, advirtió Marta Villegas, directora de la Unidad de Tecnologías del Lenguaje del Centro Nacional de Supercomputación de España, durante la Convención de la Red Panhispánica de Lenguaje Claro.
La Inteligencia Artificial Generativa es, hasta ahora, una tecnología anglocéntrica, alimentada con datos en su mayoría en inglés y desarrollada por grandes empresas de tecnología en unos cuantos países del mundo (especialmente, Estados Unidos).
Te puede interesar: Inteligencia Artificial en español, una asignatura pendiente
Por eso, la experta consideró que los países hispanos están subrepresentados en los grandes modelos de lenguaje de IA.
La gran diversidad de lenguas que existen alrededor del mundo están diluidas en una representación exigua, lo cual puede generar sesgos lingüísticos y no contemplar la visión del mundo que tienen las sociedades hispanohablantes.
Villegas resaltó que lograr que la IA Generativa hable español exige aumentar la disponibilidad de datos en las diferentes variaciones de esta lengua, ya que está es una de las principales problemáticas para crear modelos nativos del español.
“Esta disponibilidad de datos es importante porque los modelos fundacionales (de la IA Generativa) son los que permiten desarrollar aplicaciones con valor añadido”, afirmó la especialista.

Los grandes sistemas de lenguaje como ChatGPT o Gemini utilizan tokens. Un token es una unidad mínima de texto o fragmentos de palabras. Los modelos de IA dividen los textos en estas pequeñas unidades para poder procesarlos.
En la versión ChatGPT-4 de OpenAI, sólo el 25 por ciento de los token están en lenguas distintas al inglés, señaló Francisco Herrera, académico de la Real Academia de Ingeniería en España.
Herrera resaltó la importancia de que se incluya un alto porcentaje de tokens en español en el entrenamiento de los sistemas de IA, ya que de lo contrario se generan “prisiones probabilísticas del lenguaje”.
Los grandes modelos de lenguaje deben ser fiables, seguros y generar confianza. Pero eso no se alcanzará si no hay diversidad en las lenguas que están representadas en su desarrollo, apuntó el académico.
Durante el foro organizado por la Real Academia Española, Asunción Gómez-Pérez, académica de la RAE, destacó la importancia de desarrollar modelos de IA Generativa nativos del español.
Te recomendamos: La RAE consigue presupuesto para mejorar el uso del español en la Inteligencia Artificial
El modelo nativo del español debe entrenarse con textos en español de calidad, seguir las normas lingüísticas y ser sostenible en el tiempo”, acotó Gómez-Pérez.
Además, implementar estos modelos nativos de español requiere aumentar la capacidad de cómputo de los países hispanohablantes, a fin de que puedan impulsar una mayor disponibilidad de volúmenes datos.
La directora de la Unidad de Tecnologías del Lenguaje del Centro Nacional de Supercomputación de España dijo que ya está trabajando con un equipo para incrementar esa disponibilidad.
Hasta ahora, el equipo de investigación conformado por más de 50 personas ha logrado disponibilizar 7 trillones de datos en diferentes lenguas. Aunque es una cantidad enorme, apenas es una pequeña pieza para entrenar modelos nativos que representen a la diversidad de sociedades y culturas alrededor del mundo.