NVIDIA lanza un canal abierto de generación de datos sintéticos para entrenar modelos de lenguajes grandes

Nvidia

NVIDIA anunció hoy Nemotron-4 340B, una familia de modelos abiertos que los desarrolladores pueden utilizar para generar datos sintéticos para entrenar modelos de lenguaje grande (LLM) para aplicaciones comerciales en los sectores de salud, finanzas, manufactura, comercio minorista y cualquier otra industria.

Los datos de capacitación de alta calidad desempeñan un papel fundamental en el rendimiento, la precisión y la calidad de las respuestas de un LLM personalizado, pero los conjuntos de datos sólidos pueden ser prohibitivamente costosos y de difícil acceso.

A través de una licencia de modelo abierto excepcionalmente permisiva , Nemotron-4 340B ofrece a los desarrolladores una forma gratuita y escalable de generar datos sintéticos que pueden ayudar a crear potentes LLM.

La familia Nemotron-4 340B incluye modelos base, de instrucción y de recompensa que forman un canal para generar datos sintéticos utilizados para entrenar y refinar LLM. Los modelos están optimizados para funcionar con NVIDIA NeMo , un marco de código abierto para el entrenamiento de modelos de un extremo a otro, que incluye curación, personalización y evaluación de datos. También están optimizados para la inferencia con la biblioteca de código abierto NVIDIA TensorRT-LLM .

Nemotron-4 340B se puede descargar ya desde el catálogo de NVIDIA NGC y Hugging Face . Los desarrolladores pronto podrán acceder a los modelos en ai.nvidia.com , donde se empaquetarán como un microservicio NVIDIA NIM con una interfaz de programación de aplicaciones estándar que se puede implementar en cualquier lugar.

Leer más.