Microsoft anunció oficialmente la introducción de Maia 200, su nuevo acelerador de inferencia con un enfoque en la reducción de costos de generación de tokens. Al igual que otros hiperescaladores con procesadores propietarios, la compañía espera ofrecer una alternativa adicional a sus clientes de Azure con la promesa de un costo menor en cargas de trabajo de Inteligencia Artificial (IA).
El nuevo acelerador está construido sobre el proceso de 3 nanómetros de TSMC con núcleos tensoriales nativos FP8/FP4, un sistema de memoria rediseñado con 216GB HBM3e a 7 TB/s y 272 MB de SRAM (Memoria Estática de Acceso Aleatorio) integrada. Scott Guthrie, vicepresidente ejecutivo de Cloud + IA en Microsoft, explica en el blog de la compañía que este procesador también cuenta con motores de movimiento de datos que mantienen los modelos masivos alimentados, rápidos y con una alta utilización.
El directivo asegura que este procesador es incluso más eficiente que cualquier otra oferta de la competencia, incluyendo mejor rendimiento FP4 (operaciones punto flotante de 4 bits) respecto a los chips Trainium 3 de Amazon, y tres veces el rendimiento FP8 en comparación al nuevo TPU Ironwood de Google.
“Maia 200 es el sistema de inferencia más eficiente que Microsoft ha desplegado jamás, con un 30% de rendimiento por dólar superior al hardware de última generación de nuestra flota actual”, asegura Guthrie. El nuevo acelerador entrega más de 10 petaFLOPS en precisión de 4 bits (FP4) y más de 5 petaFLOPS de rendimiento de 8 bits (FP8), lo que lo hace ideal para los modelos más recientes que utilizan computación de baja precisión.
Aunque Nvidia se mantiene como el proveedor dominante de chips para IA, tanto en cargas de trabajo de entrenamiento como de inferencia, los tres mayores hiperescaladores han acelerado sus esfuerzos por contar con una opción propietaria que dé más opción a los usuarios, y que además ofrecen ciertas características clave como una mayor eficiencia energética, un menor costo o mayor disponibilidad.
Microsoft señala que su nuevo chip Maia 200 servirá para múltiples modelos, incluidos los últimos GPT-5.2 de OpenAI, para aportar una ventaja de rendimiento por dólar a Microsoft Foundry y Microsoft 365 Copilot. Asimismo, el equipo de Microsoft Superintelligence utilizará Maia 200 para la generación de datos sintéticos y el aprendizaje por refuerzo para mejorar los modelos internos de próxima generación.
Además, reconociendo que la alimentación de datos es tan crucial como los FLOPS, Maia 200 aborda este cuello de botella con un subsistema de memoria rediseñado, que incluye enfoque en tipos de datos de precisión estrecha, un motor DMA especializado, SRAM integrada y una estructura NoC para un movimiento de datos de alto ancho de banda, mejorando así el rendimiento de los tokens.
El chip ya se encuentra disponible en la región de Centros de Datos US Central, cerca de Des Moines, Iowa y la región US West 3 cerca de Phoenix, Arizona. Maia 200 llegará a otras regiones de infraestructura de Microsoft, aunque el directivo no ofreció mayores detalles.
Junto con el chip, Microsoft introdujo también el SDK de Maia para construir y optimizar modelos, incluida la integración con PyTorch, un compilador Triton y una biblioteca optimizada del kernel, así como acceso al lenguaje de programación de bajo nivel de Maia.