Huawei emula a DeepSeek, presenta nueva arquitectura que mejora ejecución de LLMs
En búsqueda de nuevos enfoques y técnicas que permitan el mejor aprovechamiento de infraestructura para Inteligencia Artificial (IA), Huawei presentó una versión actualizada de la tecnología llamada Mezcla de Expertos (MoE, por sus siglas en inglés), un enfoque híbrido que permite balancear múltiples cargas de trabajo en un modelo grande de lenguaje (LLM) a través de múltiples dispositivos.
De manera similar a DeepSeek, el fabricante chino ha buscado nuevas técnicas que le permitan acelerar el rendimiento de los LLMs ante la restrictiva disponibilidad de infraestructura. Estados Unidos ha impuesto múltiples restricciones en contra de China para limitar su acceso a componentes avanzados, especialmente aceleradores de compañías como Nvidia y AMD.
Lo anterior, ha obligado a las empresas e investigadores del país asiático a introducir nuevas técnicas para mantener o mejorar el rendimiento de los LLM aún utilizando componentes que hayan sido modificados para cumplir con las sanciones del gobierno estadounidense.
El más reciente avance proviene de Huawei, que introdujo la arquitectura Mezcla de Expertos Agrupada (MoGE), una actualización de MoE, que según los investigadores logra una mejor distribución de las cargas de trabajo en modelos de 72 mil millones de parámetros (72B), y acelerando la inferencia en hasta 97 por ciento. Las pruebas se realizaron en Pangu, LLM desarrollado por Huawei, y sus chips Ascend.
En un reciente reporte publicado por Huawei, los investigadores explican que la técnica MoE solía tener limitaciones, por ejemplo, la activación de ciertos expertos con mucha más frecuencia que otros, lo que provoca la ineficacia del sistema cuando se ejecutan los expertos en distintos dispositivos en paralelo.
Para resolverlo, MoGE agrupa a los expertos durante la selección y equilibra la carga de trabajo de los expertos. Además, restringe los tokens para activar un número igual de expertos dentro de cada grupo de expertos predefinido.
Esta técnica estaría destinada principalmente a la ejecución de un modelo en varios dispositivos, por lo que su diseño arquitectónico garantiza una carga computacional equilibrada en los dispositivos involucrados.
A partir de los resultados de la experimentación, Huawei afirma que los “estudios demuestran que las NPU de Ascend son capaces de entrenar Pangu Pro MoE con paralelización masiva para convertirlo en un modelo líder dentro de la clase de parámetros totales por debajo de 100B, superando a modelos de código abierto destacados como GLM-Z1-32B y Qwen3-32B”.
En el pasado Computex, la feria tecnológica más importante de Taiwán, Jensen Huang, CEO de Nvidia, calificó a la política de exportación del gobierno estadounidense como un “fracaso”, al señalar que solo han limitado el acceso de la compañía al mercado chino, y no han servido para frenar el avance chino en el desarrollo de IA.