Athrun Data Intelligence


Microsoft ofrece el primer clúster de producción a escalera con más de 4600 NVIDIA GB300 NVL72, con GPU NVIDIA Blackwell Extremista conectadas a través de la red NVIDIA InfiniBand de próxima engendramiento.

Microsoft ofrece el primer clúster de producción a escalera con más de 4600 NVIDIA GB300 NVL72, con GPU NVIDIA Blackwell Extremista conectadas a través de la red NVIDIA InfiniBand de próxima engendramiento. Este clúster es el primero de muchos, a medida que escalamos a cientos de miles de GPU Blackwell Extremista. implementado en los centros de datos de IA de Microsoft a nivel mundial, lo que refleja nuestro compromiso continuo de redefinir la infraestructura de IA y la colaboración con NVIDIA. Los clústeres de escalera masiva con GPU Blackwell Extremista permitirán el entrenamiento de modelos en semanas en oficio de meses, ofreciendo un parada rendimiento para cargas de trabajo de inferencia. Igualmente estamos desbloqueando modelos más grandes y potentes, y seremos los primeros en alojar modelos de entrenamiento con cientos de billones de parámetros.

Esto fue posible gracias a la colaboración entre hardware, sistemas, dependencia de suministro, instalaciones y muchas otras disciplinas, así como con NVIDIA.

El propagación por parte de Microsoft Azure del superclúster NVIDIA GB300 NVL72 es un paso emocionante en el avance de la IA de vanguardia. Este sistema diseñado conjuntamente ofrece el primer clúster de producción GB300 a escalera del mundo, proporcionando el motor de supercomputación necesario para que OpenAI sirva modelos de parámetros multimillonarios. Esto establece el nuevo típico definitivo para la informática acelerada.

Ian Buck, vicepresidente de informática de hiperescala y parada rendimiento de NVIDIA

De NVIDIA GB200 a GB300: un nuevo típico en rendimiento de IA

A principios de este año, Azure presentó las máquinas virtuales (VM) ND GB200 v6acelerado por la obra Blackwell de NVIDIA. Estos rápidamente se convirtieron en la columna vertebral de algunas de las cargas de trabajo de IA más exigentes de la industria, incluso para organizaciones como OpenAI y Microsoft que ya utilizan clústeres masivos de GB200 NVL2 en Azure para entrenar e implementar modelos de vanguardia.

Ahora, con las máquinas virtuales ND GB300 v6, Azure vuelve a subir el listel. Estas máquinas virtuales están optimizadas para modelos de razonamiento, sistemas de IA agentes e IA generativa multimodal. Construido sobre un sistema a escalera de rack, cada rack tiene 18 VM con un total de 72 GPU:

  • 72 GPU NVIDIA Blackwell Extremista (con 36 CPU NVIDIA Grace).
  • 800 gigabits por segundo (Gbp/s) por orondo de bandada escalable entre bastidores de GPU a través de NVIDIA Quantum-X800 InfiniBand de próxima engendramiento (2x GB200 NVL72).
  • 130 terabytes (TB) por segundo de orondo de bandada NVIDIA NVLink interiormente del chasis.
  • 37 TB de memoria rápida.
  • Hasta 1440 petaflops (PFLOPS) de rendimiento de FP4 Tensor Core.
Primer plano del servidor Azure con NVIDIA GB300 NVL72 y GPU Blackwell Ultra.

Construyendo para la supercomputación de IA a escalera

Construir infraestructura para la IA de vanguardia requiere que reimaginemos cada capa de la pila (computación, memoria, redes, centros de datos, refrigeración y energía) como un sistema unificado. Las máquinas virtuales ND GB300 v6 son una clara representación de esta transformación, fruto de abriles de colaboración entre silicio, sistemas y software.

A nivel de rack, NVLink y NVSwitch reducen las limitaciones de memoria y orondo de bandada, permitiendo hasta 130 TB por segundo de transferencia de datos interiormente del rack conectando un total de 37 TB de memoria rápida. Cada chasis se convierte en una mecanismo estrechamente acoplada, que ofrece un anciano rendimiento de inferencia con latencias reducidas en modelos más grandes y ventanas de contexto más largas, lo que permite que los sistemas de inteligencia fabricado multimodal y agentes sean más receptivos y escalables que nunca.

Para progresar más allá del rack, Azure implementa una obra sin asedio de árbol completo utilizando NVIDIA Quantum-X800 Gbp/s InfiniBand, el tejido de red más rápido adecuado en la ahora. Esto garantiza que los clientes puedan ampliar el entrenamiento de modelos ultragrandes de forma capaz a decenas de miles de GPU con una sobrecarga de comunicación mínima, brindando así un mejor rendimiento de entrenamiento de un extremo a otro. La reducción de los gastos generales de sincronización asimismo se traduce en una utilización máxima de las GPU, lo que ayuda a los investigadores a iterar más rápido y a menores costos a pesar de la naturaleza ávida de computación de las cargas de trabajo de entrenamiento de IA. La pila diseñada conjuntamente por Azure, que incluye protocolos personalizados, bibliotecas colectivas y computación en red, garantiza que la red sea en extremo confiable y que las aplicaciones la utilicen plenamente. Funciones como NVIDIA SHARP aceleran las operaciones colectivas y duplican el orondo de bandada efectivo al realizar cálculos en el conmutador, lo que hace que el entrenamiento y la inferencia a gran escalera sean más eficientes y confiables.

Los sistemas de refrigeración avanzados de Azure utilizan unidades intercambiadoras de calor independientes y refrigeración de instalaciones para minimizar el uso de agua y al mismo tiempo sostener la estabilidad térmica para clústeres densos y de parada rendimiento como GB300 NVL72. Igualmente continuamos desarrollando e implementando nuevos modelos de distribución de energía capaces de soportar la suscripción densidad de energía y el firmeza de carga dinámico requerido por la clase de clústeres de GPU ND GB300 v6 VM.

Adicionalmente, nuestras pilas de software rediseñadas para almacenamiento, orquestación y programación están optimizadas para utilizar plenamente la infraestructura de computación, redes, almacenamiento y centro de datos a escalera de supercomputación, brindando niveles de rendimiento sin precedentes con suscripción eficiencia a nuestros clientes.

Blade de servidor desde un bastidor con NVIDIA GB300 NVL72 en infraestructura de Azure AI.

Mirando en torno a delante

Microsoft ha invertido en infraestructura de IA durante abriles para permitir una rápida facultad y transición a la tecnología más nueva. Igualmente es por eso Azur está en una posición única para ofrecer infraestructura GB300 NVL72 a escalera de producción a un ritmo rápido, para satisfacer las demandas de la IA de vanguardia coetáneo.

A medida que Azure continúa aumentando las implementaciones mundiales de GB300, los clientes pueden esperar entrenar e implementar nuevos modelos en una fracción del tiempo en comparación con las generaciones anteriores. Las máquinas virtuales ND GB300 v6 v6 están preparadas para convertirse en el nuevo típico para la infraestructura de IA, y Azure se enorgullece de liderar el camino, apoyando a los clientes para avanzar en el mejora de IA de vanguardia.

Manténgase atento a más actualizaciones y evaluaciones comparativas de rendimiento a medida que Azure expande la implementación de producción de NVIDIA GB300 NVL72 a nivel mundial.

Lea más de NVIDIA aquí.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *