Meta construye la supercomputadora de IA más rápida del mundo

El gigante de las redes sociales presentó AI Research SuperCluster, una computadora de alta velocidad diseñada para entrenar la próxima generación de modelos de Aprendizaje Automático.

265

La matriz de Facebook anunció que acaba de completar la primera fase en la construcción de una nueva supercomputadora diseñada para entrenar modelos de Inteligencia Artificial avanzados. 

Su nombre es AI Research SuperCluster (RSC) y la compañía espera que cuando esté finalizada al término de este 2022, se convierta en la más rápida del mundo en su tipo. 

Meta dice que RSC nació para ayudar a los ingenieros de la empresa a construir mejores modelos de Aprendizaje Automático que puedan aprender de millones de ejemplos y “analizar sin problemas grandes conjuntos de texto, imágenes y video juntos”.

Esto permitirá desarrollar Inteligencia Artificial avanzada para aplicarla en tecnologías como visión por computadora, asistentes de voz, reconocimiento de voz y más. 

Por ejemplo, los modelos podrán impulsar herramientas de Realidad Aumentada y traducciones de voz en tiempo real para mejorar la colaboración entre grandes grupos de personas que hablan diferentes idiomas, ya sea que interactúen en un proyecto de investigación o en un juego.

Meta espera que la RSC cimente el camino para dar forma a su visión de un metaverso, en el que dice que las aplicaciones y productos impulsados por IA serán fundamentales. Por lo tanto, se requieren computadoras poderosas capaces de hacer trillones de operaciones por segundo.

Una nueva infraestructura informática

La supercomputadora RSC es heredera de años de trabajo de investigación que inició en 2017. A principios de 2020, la compañía decidió acelerar el proceso diseñando una nueva infraestructura desde cero que fuera capaz de entrenar los modelos con más de un billón de parámetros en bases de datos tan grandes como un exabyte (el equivalente a más de 36 mil años de video en alta calidad).

RSC tiene actualmente 760 sistemas DGX A100 de Nvidia para un total de 6080 GPU. En almacenamiento consta de 175 petabytes de Pure FlashArray, 46 petabytes de almacenamiento en caché en los sistemas Penguin Computing Altus y 10 petabytes de Pure FlashBlade.

El conglomerado de redes sociales cree que con esta configuración la RSC ya se encuentra entre las más rápidas del planeta, ya que las primeras pruebas muestran que puede ejecutar flujos de trabajo de visión artificial hasta 20 veces más rápido.

También ejecuta la biblioteca de comunicación colectiva (NCCL) de Nvidia nueve veces más rápido y entrena a gran escala modelos de procesamiento de lenguaje natural tres veces más rápido.

Para cuando Meta termine la segunda fase de la RSC a finales de este año, espera aumentar la cantidad de procesamiento gráfico de 6080 a 16.000 GPU, con lo que multiplicará el rendimiento del entrenamiento de IA por más de 2.5 veces.
El sistema de almacenamiento también crecerá de un ancho de banda de 16TB/s para el entrenamiento de datos, hasta 1 exabyte, con un rendimiento de casi cinco exaflops de computación de precisión mixta.