Meituan, empresa china de servicios bajo demanda con sede en Beijing, anunció oficialmente el lanzamiento y liberación como código abierto de LongCat-2.0, su modelo de lenguaje de gran tamaño (LLM), cuyos principales diferenciadores son que está optimizado para tareas agénticas y fue entrenado completamente en hardware nacional.
En un comunicado, Meituan detalla que su LLM de nueva generación cuenta con 1.6 billones de parámetros totales y aproximadamente 48,000 millones de activación promedio. Sería el primer modelo a esta escala que completa tanto el entrenamiento como la inferencia en un clúster de computación doméstica de 50,000 tarjetas, utilizando chips ASIC (circuitos integrados de aplicación específica) desarrollados en China.
Mientras que otros modelos chinos de gran escala, como DeepSeek-V4-pro lanzado en abril, aún utilizaron hardware estadounidense como aceleradores Nvidia para su entrenamiento, Meituan afirma que el desarrollo de LongCat-2.0 empleó chips chinos durante todo el proceso, incluyendo el pre-entrenamiento, donde el modelo procesa conjuntos masivos de datos para aprender patrones básicos.
El lanzamiento de este modelo formaría parte de los esfuerzos de China por impulsar el uso de hardware y componentes fabricados por proveedores locales, con la intención de reducir la dependencia y riesgos geopolíticos por el uso de equipos estadounidenses. El modelo demostraría la capacidad que han logrado los fabricantes chinos de procesadores para cumplir el objetivo nacional.
LongCat-2.0 fue pre-entrenado desde cero con soporte nativo para contextos ultra-largos de 1 millón de tokens, diseñado específicamente para tareas de codificación agéntica. Para atender estas tareas, la arquitectura incorpora tres innovaciones:
- LongCat Sparse Attention (LSA): permite al modelo seleccionar de forma inteligente información clave en lugar de procesar cada token secuencialmente, reduciendo la complejidad computacional de cuadrática a lineal.
- Expertos de Computación Cero + ScMoE: implementa activación dinámica a nivel de token (rango de 33B-56B), donde tokens simples no consumen recursos computacionales, mientras que tokens complejos reciben automáticamente más capacidad de procesamiento.
- MOPD (Multi-Teacher On-Policy Distill): fusiona tres grupos de expertos especializados en uso de herramientas, razonamiento multi-paso y alineación humana.
Desafíos de entrenamiento a gran escala
El corpus (conjunto masivo de datos no etiquetados) de pre-entrenamiento superó los 30 billones de tokens, cubriendo datos en chino, inglés, múltiples idiomas y código. Meituan detalla que el proyecto, que inició desde 2023, escaló desde miles de unidades de procesamiento hasta 50,000, resolviendo sistemáticamente desafíos de adaptación de operadores, optimización de comunicaciones y estabilidad distribuida.
Los logros técnicos incluyen una reducción del 70% en la tasa mensual de fallos diarios, mejora de 1.5 veces en la eficiencia de entrenamiento (MFU), y rendimiento diario en estado estable superior a 1 billón de tokens por día.
En el comunicado de lanzamiento, Meituan no mencionó de forma explícita el nombre del proveedor o fabricante de los componentes utilizados. Sin embargo, detalló posteriormente que utilizó las herramientas de Huawei Collective Communication Library (HCCL) para mejorar la estabilidad, según información del South China Morning Post.
Adopción global
Antes del lanzamiento oficial, la versión preliminar de LongCat-2.0 estuvo disponible globalmente a través de OpenRouter y longcat.ai, donde se posicionó entre los tres modelos principales por volumen de llamadas en OpenRouter y convirtiéndose en uno de los modelos más populares entre desarrolladores de agentes, con amplio uso en frameworks como Hermes, Claude Code y OpenClaw.