Maia 200 es el nuevo acelerador de IA interno de Microsoft diseñado para la inferencia en centros de datos de Azure. Se enfoca en el costo de la vivientes de tokens para modelos de lengua grandes y otras cargas de trabajo de razonamiento mediante la combinación de computación de precisión estrecha, una grado de memoria densa en el chip y una estructura de ampliación basada en Ethernet.
Por qué Microsoft construyó un chip de inferencia dedicado?
El entrenamiento y la inferencia enfatizan el hardware de diferentes maneras. La formación necesita una comunicación muy amplia entre todos y trabajos de larga duración. La inferencia se preocupa por los tokens por segundo, la latencia y los tokens por dólar. Microsoft posiciona a Maia 200 como su sistema de inferencia más eficaz, con aproximadamente un 30 por ciento mejor rendimiento por dólar que el posterior hardware de su flota.
Maia 200 es parte de una pila heterogénea de Azure. Servirá para múltiples modelos, incluidos los últimos modelos GPT 5.2 de OpenAI, y potenciará cargas de trabajo en Microsoft Foundry y Microsoft 365 Copilot. El equipo de Superinteligencia de Microsoft utilizará el chip para la vivientes de datos sintéticos y el estudios reforzado para mejorar los modelos internos.
Núcleo de silicio y especificaciones numéricas.
Cada Maia 200 El troquel se fabrica mediante el proceso de 3 nanómetros de TSMC. El chip integra más de 140 mil millones de transistores.
La canalización informática se fundamento en núcleos tensoriales nativos FP8 y FP4. Un solo chip ofrece más de 10 petaFLOPS en FP4 y más de 5 petaFLOPS en FP8, internamente de una envolvente SoC TDP de 750 W.
La memoria se divide entre HBM apilado y SRAM. Maia 200 proporciona 216 GB de HBM3e con aproximadamente 7 TB por segundo de satisfecho de lado y 272 MB de SRAM integrada. La SRAM está organizada en SRAM a nivel de baldosa y SRAM a nivel de clúster y está completamente administrada por software. Los compiladores y los tiempos de ejecución pueden colocar conjuntos de trabajo explícitamente para perseverar la atención y los núcleos GEMM cerca de la computación.
Microarquitectura basada en mosaicos y grado de memoria.
La microarquitectura Maia 200 es jerárquica. La mecanismo almohadilla es el azulejo. Un baldosa es la mecanismo de almacenamiento y computación autónoma más pequeña del chip. Cada baldosa incluye una mecanismo tensor de baldosa para operaciones matriciales de detención rendimiento y un procesador vectorial de baldosa como motor SIMD programable. Tile SRAM alimenta ambas unidades y los motores Tile DMA mueven datos internamente y fuera de SRAM sin detener el cálculo. Un procesador de control de mosaicos organiza la secuencia de trabajo del tensor y DMA.
Varios mosaicos forman un congregación. Cada clúster expone una SRAM de clúster de múltiples bancos más ilustre que se comparte entre los mosaicos de ese clúster. Los motores DMA a nivel de clúster mueven datos entre la SRAM del clúster y las pilas HBM empaquetadas conjuntamente. Un núcleo de clúster coordina la ejecución de múltiples mosaicos y utiliza esquemas de pleonasmo para mosaicos y SRAM para mejorar el rendimiento manteniendo el mismo maniquí de programación.
Esta grado permite que la pila de software fije diferentes partes del maniquí en diferentes niveles. Por ejemplo, los núcleos de atención pueden perseverar los tensores Q, K, V en la SRAM de baldosa, mientras que los núcleos de comunicación colectiva pueden organizar cargas avíos en la SRAM del clúster y sujetar la presión de HBM. El objetivo del diseño es una reincorporación utilización sostenida cuando los modelos crecen en tamaño y largo de secuencia.
El movimiento de datos en chip y la estructura de ampliación de Ethernet
La inferencia a menudo está limitada por el movimiento de datos, no por el cálculo mayor. Maia 200 utiliza una red personalizada en chip yuxtapuesto con una grado de motores DMA. Network on Chip zapatilla mosaicos, clústeres, controladores de memoria y unidades de E/S. Tiene planos separados para tráfico tensorial ilustre y para mensajes de control pequeños. Esta separación evita que la sincronización y las pequeñas panorama queden bloqueadas detrás de grandes transferencias.
Más allá del confín del chip, Maia 200 integra su propia NIC y una red de ampliación basada en Ethernet que ejecuta el protocolo AI Transport Layer. La NIC incorporada expone aproximadamente 1,4 TB por segundo en cada dirección, o 2,8 TB por segundo de satisfecho de lado bidireccional, y escalera a 6144 aceleradores en un dominio de dos niveles.
Adentro de cada bandeja, cuatro aceleradores Maia forman un Quad totalmente conectado. Estos cuatro dispositivos tienen enlaces directos no conmutados entre sí. La decano parte del tráfico paralelo tensorial permanece internamente de este congregación, mientras que sólo el tráfico colectivo más diligente sale a los conmutadores. Esto restablecimiento la latencia y reduce el número de puertos del switch para colectivos de inferencia típicos.
Integración y refrigeración del sistema Azure
A nivel de sistema, Maia 200 sigue los mismos estándares mecánicos, de potencia y de rack que los servidores GPU de Azure. Admite configuraciones enfriadas por atmósfera y por neto y utiliza una mecanismo intercambiadora de calor de refrigeración líquida de circuito cerrado de segunda vivientes para racks de reincorporación densidad. Esto permite implementaciones mixtas de GPU y aceleradores Maia en el mismo espacio del centro de datos.
El acelerador se integra con el plano de control de Azure. La establecimiento de firmware, la supervisión del estado y la telemetría utilizan los mismos flujos de trabajo que otros servicios informáticos de Azure. Esto permite implementaciones y mantenimiento en toda la flota sin interrumpir la ejecución de cargas de trabajo de IA.
Conclusiones esencia
Aquí hay cinco conclusiones técnicas y concisas:
- Primer diseño de inferencia.: Maia 200 es la primera plataforma de sistema y silicio de Microsoft construida exclusivamente para la inferencia de IA, optimizada para la vivientes de tokens a gran escalera en modelos de razonamiento modernos y modelos de lengua de gran tamaño.
- Especificaciones numéricas y grado de memoria.: El chip está fabricado en TSMC de 3 nm, integra en torno a de 140 mil millones de transistores y ofrece más de 10 PFLOPS FP4 y más de 5 PFLOPS FP8, con 216 GB HBM3e a 7 TB por segundo yuxtapuesto con 272 MB de SRAM en chip dividido en SRAM de baldosa y SRAM de clúster y administrado en software.
- Rendimiento frente a otros aceleradores de la nimbo: Microsoft informa aproximadamente un 30 por ciento mejor rendimiento por dólar que los últimos sistemas de inferencia de Azure y afirma tener un rendimiento FP4 3 veces decano que Amazon Trainium de tercera vivientes y un rendimiento FP8 decano que Google TPU v7 a nivel de acelerador.
- Edificio basada en mosaicos y tejido Ethernet: Maia 200 organiza la computación en mosaicos y clústeres con SRAM circunscrito, motores DMA y una red en chip, y expone una NIC integrada con aproximadamente 1,4 TB por segundo por dirección de satisfecho de lado Ethernet que se escalera a 6144 aceleradores utilizando grupos Quad totalmente conectados como dominio paralelo del tensor circunscrito.
