Nvidia lanza un modelo de lenguaje pequeño con precisión de vanguardia
Mistral-NeMO-Minitron 8B es una versión miniatura que combina una alta precisión con eficiencia de procesamiento para ejecutar el modelo Mistral NeMo 12B en centros de datos, nubes y estaciones de trabajo impulsadas por GPU.
Nvidia lanzó Mistral-Ne-Mo-Minitron 8B, una versión miniaturizada del modelo abierto Mistral NeMo 12B lanzado por Mistral AI y Nvidia en julio, el cual es lo suficientemente pequeño como para ejecutarse en una estación de trabajo con tecnología Nvidia RTX y, al mismo tiempo, sobresalir en múltiples puntos de referencia para chatbots, asistentes virtuales, generadores de contenido y herramientas educativas con tecnología de Inteligencia Artificial (IA).
Nvidia destila los modelos Minitron mediante Nvidia NeMo, una plataforma integral para desarrollar IA generativa personalizada.
“Combinamos dos métodos de optimización de IA diferentes: poda para reducir los 12 mil millones de parámetros de Mistral NeMo a 8 mil millones y destilación para mejorar la precisión”, dijo Bryan Catanzaro, vicepresidente de Investigación de Aprendizaje Profundo Aplicado en Nvidia. “Al hacerlo, Mistral-NeMo-Minitron 8B ofrece una precisión comparable al modelo original como un menor costo computacional”, agregó.
A diferencia de sus contrapartes más grandes, los modelos de lenguaje pequeños pueden ejecutarse en tiempo real en estaciones de trabajo y computadoras portátiles, lo que facilita que las organizaciones con recursos limitados implementen capacidades de IA generativa en toda su infraestructura mientras optimizan el costo, la eficiencia operativa y el uso de energía.
La ejecución de modelos de lenguaje de forma local en dispositivos de Edge también ofrece beneficios de seguridad, ya que no es necesario pasar los datos a un servidor desde un dispositivo de borde.
Los desarrolladores pueden comenzar con Mistral-NeMo-Minitron 8B empaquetado como un microservicio NVIDIA NIM con una interfaz de programación de aplicaciones (API) estándar, o pueden descargar el modelo desde Hugging Face. Próximamente estará disponible un Nvidia Nim descargable que se puede implementar en cualquier sistema acelerado por GPU en minutos.