Athrun Data Intelligence


Hoy, estamos orgullosos de presentar Maia 200, un progresista acelerador de inferencia diseñado para mejorar drásticamente la finanzas de la vivientes de tokens de IA. Maia 200 es una potencia de inferencia de IA: un acelerador construido sobre el proceso de 3 nm de TSMC con núcleos tensores nativos FP8/FP4, un sistema de memoria rediseñado con 216 GB HBM3e a 7 TB/s y 272 MB de SRAM en chip, por otra parte de motores de movimiento de datos que mantienen modelos masivos alimentados, rápidos y mucho utilizados. Esto convierte a Maia 200 en el silicio propio de veterano rendimiento de cualquier hiperescalador, con tres veces el rendimiento FP4 del Amazon Trainium de tercera vivientes y el rendimiento FP8 por encima del TPU de séptima vivientes de Google. Maia 200 es incluso el sistema de inferencia más válido que Microsoft haya implementado quia, con un rendimiento un 30 % mejor por dólar que el hardware de última vivientes de nuestra flota presente.

Maia 200 es parte de nuestra heterogénea infraestructura de IA y servirá para múltiples modelos, incluidos los últimos modelos GPT-5.2 de OpenAI, brindando una delantera de rendimiento por dólar a Microsoft Foundry y Microsoft 365 Copilot. El equipo de Microsoft Superintelligence utilizará Maia 200 para la vivientes de datos sintéticos y el educación reforzado para mejorar los modelos internos de próxima vivientes. Para los casos de uso de canalización de datos sintéticos, el diseño exclusivo de Maia 200 ayuda a acelerar la velocidad a la que se pueden ocasionar y filtrar datos de adhesión calidad y específicos del dominio, alimentando el entrenamiento posterior con señales más recientes y específicas.

Maia 200 está implementado en nuestra región del centro de datos central de EE. UU., cerca de Des Moines, Iowa, y la región del centro de datos US West 3, cerca de Phoenix, Arizona, será la futuro y las futuras regiones. Maia 200 se integra perfectamente con Azure y estamos presentando una clarividencia previa del SDK de Maia con un conjunto completo de herramientas para crear y optimizar modelos para Maia 200. Incluye un conjunto completo de capacidades, incluida la integración de PyTorch, un compilador Triton y una biblioteca de kernel optimizada, y entrada al jerigonza de programación de bajo nivel de Maia. Esto brinda a los desarrolladores un control detallado cuando es necesario y, al mismo tiempo, permite una casquivana transferencia de modelos a través de aceleradores de hardware heterogéneos.

Vídeo de YouTube

Diseñado para la inferencia de IA

Fabricado con el proceso de 3 nanómetros de vanguardia de TSMC, cada chip Maia 200 contiene más de 140 mil millones de transistores y está diseñado para cargas de trabajo de IA a gran escalera, al mismo tiempo que ofrece un rendimiento válido por dólar. En entreambos frentes, Maia 200 está diseñada para sobresalir. Está diseñado para los últimos modelos que utilizan computación de desprecio precisión, y cada chip Maia 200 ofrece más de 10 petaFLOPS en precisión de 4 bits (FP4) y más de 5 petaFLOPS de rendimiento de 8 bits (FP8), todo interiormente de una envolvente SoC TDP de 750 W. En términos prácticos, Maia 200 puede ejecutar sin esfuerzo los modelos más grandes de hoy, con mucho espacio para modelos aún más grandes en el futuro.

Un primer plano del chip acelerador de IA Maia 200.

Fundamentalmente, los FLOPS no son el único ingrediente para una IA más rápida. Los datos de comida son igualmente importantes. Maia 200 ataca este cuello de botella con un subsistema de memoria rediseñado. El subsistema de memoria Maia 200 se centra en tipos de datos de precisión estrecha, un motor DMA especializado, SRAM integrada y un tejido NoC especializado para el movimiento de datos de gran orondo de partida, lo que aumenta el rendimiento del token.

Una tabla con el título

Sistemas de IA optimizados

A nivel de sistemas, Maia 200 presenta un novedoso diseño de red ampliable de dos niveles construido sobre Ethernet standard. Una capa de transporte personalizada y una NIC estrechamente integrada desbloquean el rendimiento, una gran confiabilidad y importantes ventajas de costos sin acatar de estructuras patentadas.

Cada acelerador expone:

  • 2,8 TB/s de orondo de partida ampliable dedicado y bidireccional
  • Operaciones colectivas predecibles y de detención rendimiento en clústeres de hasta 6144 aceleradores

Esta cimentación ofrece rendimiento escalable para clústeres de inferencia densos y al mismo tiempo reduce el uso de energía y el TCO militar en toda la flota completo de Azure.

Adentro de cada bandeja, cuatro aceleradores Maia están completamente conectados con enlaces directos no conmutados, lo que mantiene una comunicación específico de gran orondo de partida para una eficiencia de inferencia óptima. Se utilizan los mismos protocolos de comunicación para redes interiormente y entre bastidores utilizando el protocolo de transporte Maia AI, lo que permite un escalamiento fluido entre nodos, bastidores y grupos de aceleradores con saltos de red mínimos. Este tejido unificado simplifica la programación, progreso la flexibilidad de la carga de trabajo y reduce la capacidad bloqueada, al tiempo que mantiene un rendimiento constante y una rentabilidad a escalera de la nubarrón.

Una vista de arriba hacia abajo del servidor blade Maia 200.

Un enfoque de expansión nativo de la nubarrón

Un principio central de los programas de expansión de silicio de Microsoft es validar la veterano cantidad posible del sistema de extremo a extremo ayer de la disponibilidad final del silicio.

Un sofisticado entorno previo al silicio guió la cimentación Maia 200 desde sus primeras etapas, modelando los patrones de computación y comunicación de los LLM con adhesión fidelidad. Este entorno de codesarrollo temprano nos permitió optimizar el silicio, las redes y el software del sistema como un todo unificado, mucho ayer del primer silicio.

Todavía diseñamos Maia 200 para una disponibilidad rápida y perfecta en el centro de datos desde el principio, desarrollando una firmeza temprana de algunos de los nociones más complejos del sistema, incluida la red backend y nuestra mecanismo intercambiadora de calor de refrigeración líquida de circuito cerrado de segunda vivientes. La integración nativa con el plano de control de Azure ofrece capacidades de seguridad, telemetría, diagnosis y establecimiento tanto a nivel de chip como de rack, maximizando la confiabilidad y el tiempo de actividad para cargas de trabajo de IA críticas para la producción.

Como resultado de estas inversiones, los modelos de IA estaban funcionando con silicio Maia 200 a los pocos días de resistir la primera cuarto empaquetada. El tiempo desde el primer silicio hasta la implementación del primer rack del centro de datos se redujo a menos de la medio que el de los programas de infraestructura de IA comparables. Y este enfoque de extremo a extremo, desde el chip hasta el software y el centro de datos, se traduce directamente en una veterano utilización, un tiempo de producción más rápido y mejoras sostenidas en el rendimiento por dólar y por vatio a escalera de la nubarrón.

Una vista del rack Maia 200 y la unidad de refrigeración HXU.

Regístrese para obtener la clarividencia previa del SDK de Maia

La era de la IA a gran escalera al punto que comienza y la infraestructura definirá lo que es posible. Nuestro software acelerador Maia AI está diseñado para ser multigeneracional. A medida que implementamos Maia 200 en nuestra infraestructura completo, ya estamos diseñando para las generaciones futuras y esperamos que cada vivientes establezca continuamente nuevos puntos de relato de lo que es posible y ofrezca un rendimiento y una eficiencia cada vez mejores para las cargas de trabajo de IA más importantes.

Hoy, invitamos a desarrolladores, nuevas empresas de inteligencia químico y académicos a comenzar a explorar la optimización temprana de modelos y cargas de trabajo con el nuevo kit de expansión de software (SDK) Maia 200. El SDK incluye un compilador Triton, soporte para PyTorch, programación de bajo nivel en NPL y un simulador Maia y una calculadora de costos para optimizar la eficiencia en una escalón más temprana del ciclo de vida del código. Regístrese para la clarividencia previa aquí.

Obtenga más fotos, videos y capital en nuestro Sitio Maia 200 y percibir más detalles.

Scott Guthrie es responsable de soluciones y servicios de computación en la nubarrón a hiperescala, incluidos Azure, la plataforma de computación en la nubarrón de Microsoft, soluciones de inteligencia químico generativa, plataformas de datos e información y ciberseguridad. Estas plataformas y servicios ayudan a organizaciones de todo el mundo a resolver desafíos urgentes e impulsar una transformación a dilatado plazo.

Etiquetas: AI, Azur, centros de datos



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *