Más allá de una innovación tecnológica, la Inteligencia Artificial es una herramienta que devela expresiones culturales y lingüísticas de las comunidades. En un futuro no muy lejano, su poder permitiría comprender mejor a las sociedades o perpetuar los sesgos y las brechas alrededor del mundo.
De acuerdo con la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura (Unesco), el español es el cuarto idioma más hablado del mundo, superado por el inglés, el mandarín y el hindi.
Sin embargo, más de la mitad del contenido disponible en Internet se encuentra únicamente en inglés, según cifras de Statista. Y estos datos son la materia prima para desarrollar nuevas iniciativas, proyectos, tecnologías en español y en otros idiomas. Es decir, no hablar inglés es dejar de acceder al 50 por ciento del total de la información disponible en Internet.
Para contribuir con el cierre de esta brecha lingüística, surgen herramientas de elaboración de modelos de lenguaje para IA que pretenden democratizar el acceso y el desarrollo de esta tecnología en español como Somos NLP y RigoBERTa. Así como iniciativas de empresas privadas como IBM y Microsoft.
Al desarrollar un modelo de lenguaje que comparte las características de los hispanohablantes, es posible crear una mayor representación cultural y contextual que permitiría captar mejor las expresiones idiomáticas y los contextos específicos de los países que hablan español, con lo que es posible mejorar la calidad y la relevancia de las respuestas que obtienen los usuarios que acceden a modelos de IA.
Asimismo, implementar soluciones basadas en datos adquiridos en español habilita nuevos caminos para contribuir con el cierre de brechas de acceso, educación y digital. Al eliminar las barreras de lenguaje es posible para 500 millones de hispanohablantes nativos acceder a información que ya está disponible en Internet, pero que por ahora sólo se encuentra en inglés.
Contar con un modelo de lenguaje en español también puede ayudar a captar mejor los matices culturales y expresiones idiomáticas, una ventaja que puede ser aprovechada por las empresas, pues tener en cuenta este tipo de contextos ayuda a generar mejores soluciones de soporte y atención e implementarlos en herramientas como chatbots y de servicio al cliente.
A su vez, contribuye con la creación de contenido personalizado, incluyendo mensajes publicitarios y campañas de marketing que generan un mejor impacto con el público hispanohablante.
Otra de las ventajas es que los datos generados se convierten en datos base que pueden ser utilizados por otras iniciativas en el futuro, a lo cual se suma otro desafío: la diversidad lingüística del mismo idioma en donde existen una gran variedad de dialectos y expresiones por países y regiones, lo que dificulta la creación de modelos que sean capaces de comprender y generar lenguaje de manera precisa en todos los contextos.
Por esta razón resulta fundamental crear la mayor información posible proveniente de cualquier país hispanohablante que ayude a robustecer la representatividad del idioma en su extensa diversidad.
RigoBERTa
RigoBERTa es una iniciativa del Instituto de Ingeniería de Conocimiento (IIC) de España que está entrenada para la comprensión general del español y cuenta con la posibilidad de adaptarse a diferentes dominios del lenguaje por sectores como salud, legal y académico, entre otros, para mejorar las aplicaciones del Procesamiento del Lenguaje Natural (PLN) en ámbitos específicos.
En comparación de otros modelos de IA Generativa, RigoBERTa se especializa en tareas de análisis y comprensión (Natural Language Understanding, NLU) ejecutando tareas como la clasificación de textos, detección y extracción de entidades y análisis de sentimiento, entre otros.
Además, cuenta con un pre-entrenamiento que se basa en redes neuronales artificiales de gran tamaño, capaces de analizar su propio volumen de información para aprender la estructura con la que se presentan las palabras en español. Así se convierten en modelos generales que se pueden re-entrenar con fines y corpus más específicos, ya sea para resolver una tarea concreta de PLN o para adaptarlo al lenguaje y terminología de un dominio puntual.
Esta solución se puede aplicar a un nivel productivo o empresarial y no sólo para nivel de interacción entre usuarios, como la mayoría de modelos generativos, pues es un modelo de lenguaje que se adapta a casos concretos.
Somos NLP
Somos NLP (procesamiento de lenguaje natural, por sus siglas en inglés) es una comunidad internacional de hispanohablantes que trabajan por acercar la IA a las más de 500 millones de personas que hablan español alrededor del mundo.
Creada en 2021, por María Grandury, Somos NLP pretende conseguir “una justa representación del español y lenguas cooficiales en el mundo digital”, como lo describen en su página web.
Para contribuir con este fin, Somos NLP ofrece cursos para las personas que apenas están iniciando el desarrollo de aplicaciones de PLN, acopla los proyectos provenientes de diferentes partes del mundo que ya están trabajando en iniciativas de este tipo y abren espacios como Blog, charlas y talleres para que los miembros compartan sus experiencias.
IBM y Microsoft
El gobierno español firmó un acuerdo con Microsoft en febrero de 2024 en el que se invertirán 2 mil 100 millones de dólares en infraestructura de IA y Cloud en España durante 2024 y 2025. Al acuerdo se sumó IBM, en abril, quien se comprometió a incorporar sus plataformas de IA y de supercomputación a este avance, que incluirá las lenguas cooficiales.
Esta iniciativa no busca únicamente lograr aplicaciones de conversación más precisas en la interacción con hispanohablantes, sino también alcanzar “un aumento de la productividad en cualquier compañía de entre 30 y 50 por ciento”, explicó Hazem Nabih, director de tecnología para Oriente Próximo en Microsoft, durante una entrevista con El País.
El acuerdo también impulsará la implantación de una administración digital eficaz que permita presentar la declaración de la renta o el acceso a servicios en todo momento mediante la interacción con una máquina por voz y por escrito.
La colaboración con ambas empresas surge en el marco de la Estrategia Nacional de Inteligencia Artificial y la Estrategia Nacional de Ciberseguridad definidas por el gobierno de España.
Aunque se trata de un campo con desafíos constantes, la IA Generativa en español experimenta un crecimiento exponencial y constante en donde iniciativas como estas contribuyen y fortalecen el acercamiento e interacción de los usuarios con esta tecnología.