Hoy presentamos el próximo sitio Fairwater de centros de datos de Azure AI en Atlanta, Georgia. Este centro de datos especialmente diseñado está conectado a nuestro primer Sitio de Fairwater en Wisconsingeneraciones anteriores de supercomputadoras de IA y la huella más amplia del centro de datos universal de Azure para crear la primera superfábrica de IA a escalera planetaria del mundo. Al reunir potencia informática de forma más densa que nunca, cada sitio de Fairwater está construido para satisfacer de forma valioso una demanda sin precedentes de computación de IA, ampliar las fronteras de la inteligencia maniquí y capacitar a todas las personas y organizaciones del planeta para conseguir más.
Para satisfacer esta demanda, hemos reinventado la forma en que diseñamos los centros de datos de IA y los sistemas que ejecutamos en el interior de ellos. Fairwater se aleja del maniquí tradicional de centro de datos en la estrato y utiliza una única red plana que puede integrar cientos de miles de las últimas GPU NVIDIA GB200 y GB300 en una supercomputadora masiva. Estas innovaciones son producto de décadas de experiencia en el diseño de centros de datos y redes, así como de lo aprendido al respaldar algunos de los trabajos de capacitación en IA más importantes del planeta.
Si adecuadamente el diseño del centro de datos de Fairwater es muy adecuado para entrenar la próxima concepción de modelos de frontera, además está construido teniendo en cuenta la fungibilidad. La capacitación ha evolucionado de un único trabajo monolítico a una variedad de cargas de trabajo con diferentes requisitos (como capacitación previa, ajuste, educación reforzado y concepción de datos sintéticos). Microsoft ha implementado una columna vertebral AI WAN dedicada para integrar cada sitio de Fairwater en un sistema elástico más amplio que permite la asignación dinámica de diversas cargas de trabajo de AI y maximiza la utilización de GPU del sistema combinado.
A continuación, analizamos algunas de las interesantes innovaciones técnicas que respaldan a Fairwater, desde la forma en que construimos centros de datos hasta las redes en el interior y entre los sitios.
Densidad máxima de computación
La infraestructura moderna de IA está cada vez más limitada por las leyes de la física. La velocidad de la luz es ahora un cuello de botella esencia en nuestra capacidad de integrar estrechamente aceleradores, computación y almacenamiento con una latencia eficaz. Fairwater está diseñado para maximizar la densidad de la computación para minimizar la latencia en el interior y entre los racks y maximizar el rendimiento del sistema.
Una de las palancas esencia para la densidad de conducción es mejorar la refrigeración a escalera. Los servidores de IA en los centros de datos de Fairwater están conectados a un sistema de refrigeración para toda la instalación diseñado para la perdurabilidad, con un enfoque de circuito cerrado que reutiliza el deducido continuamente luego del llenado auténtico sin evaporación. El agua utilizada en el llenado auténtico equivale a lo que consumen 20 hogares en un año y solo se reemplaza si la química del agua indica que es necesaria (está diseñada para más de 6 abriles), lo que la hace extremadamente valioso y sostenible.
La refrigeración líquida además proporciona una transferencia de calor mucho viejo, lo que nos permite maximizar la potencia a nivel de rack y de fila (~140 kW por rack, 1360 kW por fila) para empaquetar la computación lo más densamente posible en el interior del centro de datos. La refrigeración de última concepción además nos ayuda a maximizar la utilización de esta computación densa en operaciones de estado estable, lo que permite que grandes trabajos de capacitación se ejecuten de forma valioso a gran escalera. Luego de recorrer un sistema de placas frías a lo prolongado de la flota de GPU, el calor se disipa en una de las plantas enfriadoras más grandes del planeta.

Otra forma de impulsar la densidad informática es con un diseño de edificio de centro de datos de dos pisos. Muchas cargas de trabajo de IA son muy sensibles a la latencia, lo que significa que la distancia de los cables puede afectar significativamente el rendimiento del clúster. Cada GPU en Fairwater está conectada a todas las demás GPU, por lo que el enfoque de construcción del centro de datos de dos pisos permite la ubicación de bastidores en tres dimensiones para minimizar la distancia de los cables, lo que a su vez alivio la latencia, el ufano de partida, la confiabilidad y el costo.

Energía de inscripción disponibilidad y bajo costo
Estamos superando los límites al ofrecer esta computación con energía confiable y rentable. El sitio de Atlanta se seleccionó teniendo en mente una energía eléctrica resistente y es capaz de conseguir disponibilidad de 4×9 a un costo de 3×9. Al afianzar la energía de la red de inscripción disponibilidad, además podemos renunciar a los enfoques tradicionales de resiliencia para la flota de GPU (como la concepción en el sitio, los sistemas UPS y la distribución con doble cable), lo que genera ahorros de costos para los clientes y un tiempo de comercialización más rápido para Microsoft.
Igualmente hemos trabajado con nuestros socios de la industria para desarrollar conjuntamente soluciones de empresa de energía para mitigar las oscilaciones de energía creadas por trabajos a gran escalera, un desafío creciente para sostener la estabilidad de la red a medida que aumenta la demanda de IA. Esto incluye una opción basada en software que introduce cargas de trabajo suplementarias durante períodos de actividad pequeña, una opción basada en hardware donde las GPU imponen sus propios umbrales de energía y una opción de almacenamiento de energía en el sitio para esconder aún más las fluctuaciones de energía sin utilizar energía excesiva.
Aceleradores y sistemas de networking de última concepción
El diseño del centro de datos de clase mundial de Fairwater está impulsado por servidores especialmente diseñados, aceleradores de inteligencia sintético de última concepción y novedosos sistemas de redes. Cada centro de datos de Fairwater ejecuta un género único y coherente de GPU NVIDIA Blackwell interconectadas, con una bloque de red vanguardia que puede prosperar de forma confiable más allá de los límites de la red Clos tradicional con conmutadores de concepción presente (cientos de miles de GPU en una única red plana). Esto requirió innovación en redes de ampliación, redes de ampliación y protocolos de red.
En términos de ampliación, cada armadura de aceleradores de IA alberga hasta 72 GPU NVIDIA Blackwell, conectadas a través de NVLink para una comunicación de latencia ultrabaja en el interior del armadura. Los aceleradores Blackwell brindan la viejo densidad informática acondicionado en la presente, con soporte para formatos numéricos de devaluación precisión como FP4 para aumentar los FLOPS totales y permitir un uso valioso de la memoria. Cada armadura proporciona 1,8 TB de ufano de partida de GPU a GPU, con más de 14 TB de memoria agrupada acondicionado para cada GPU.

Luego, estos bastidores utilizan redes escalables para crear módulos y clústeres que permiten que todas las GPU funcionen como una única supercomputadora con un número reducido de saltos. Esto lo logramos con una red backend de dos niveles basada en Ethernet que admite tamaños de clústeres masivos con conectividad de GPU a GPU de 800 Gbps. Echarse en brazos en un amplio ecosistema de Ethernet y SONiC (software para redes abiertas en la estrato, que es nuestro propio sistema operante para nuestros conmutadores de red) además nos ayuda a evitar la dependencia de un proveedor y resolver los costos, ya que podemos utilizar hardware fundamental en espacio de soluciones patentadas.
Las mejoras en el retazo de paquetes, la pulverización de paquetes y la telemetría de inscripción frecuencia son componentes centrales de nuestra red de IA optimizada. Igualmente estamos trabajando para permitir un viejo control y optimización de las rutas de la red. Juntas, estas tecnologías ofrecen un control reformista de la congestión, una detección y retransmisión rápidas y un seguridad de carga ágil, lo que garantiza un rendimiento ultraconfiable y de devaluación latencia para las cargas de trabajo de IA modernas.
Escalera planetaria
Incluso con estas innovaciones, las demandas informáticas para grandes trabajos de capacitación (que ahora se miden en billones de parámetros) están superando rápidamente las limitaciones de energía y espacio de una sola instalación. Para satisfacer estas evacuación, hemos creado una red óptica AI WAN dedicada para ampliar las redes de ampliación y ampliación de Fairwater. Aprovechando nuestra escalera y décadas de experiencia en hiperescala, el año pasado entregamos más de 120 000 nuevas millas de fibra en todo Estados Unidos, ampliando el difusión y la confiabilidad de la red de IA en todo el país.
Con esta columna vertebral de stop rendimiento y inscripción resiliencia, podemos conectar directamente diferentes generaciones de supercomputadoras en una superfábrica de IA que supera las capacidades de un solo sitio en ubicaciones geográficamente diversas. Esto permite a los desarrolladores de IA exprimir nuestra red más amplia de centros de datos de Azure AI, segmentando el tráfico según sus evacuación a través de redes de ampliación y ampliación en el interior de un sitio, así como entre sitios a través del continente que albarca AI WAN.
Se prostitución de un cambio significativo con respecto al pasado, donde todo el tráfico tenía que circular por la red de escalamiento horizontal independientemente de los requisitos de la carga de trabajo. No solo proporciona a los clientes una red adecuada a su propósito a un nivel más granular, sino que además ayuda a crear fungibilidad para maximizar la flexibilidad y la utilización de nuestra infraestructura.
Poniéndolo todo adjunto
El nuevo sitio de Fairwater en Atlanta representa el próximo brinco en la infraestructura de IA de Azure y refleja nuestra experiencia en la ejecución de los trabajos de capacitación en IA más grandes del planeta. Combina innovaciones revolucionarias en densidad informática, sostenibilidad y sistemas de redes para satisfacer de forma valioso la demanda masiva de potencia computacional que estamos viendo. Igualmente se integra profundamente con otros centros de datos de IA y la plataforma Azure más amplia para formar la primera superfábrica de IA del mundo. Juntas, estas innovaciones proporcionan una infraestructura flexible y adecuada para su propósito que puede servir a todo el espectro de cargas de trabajo de IA modernas y empoderar a todas las personas y organizaciones del planeta para conseguir más. Para nuestros clientes, esto significa una integración más factible de la IA en cada flujo de trabajo y la capacidad de crear soluciones de IA innovadoras que antaño eran inalcanzables.
Obtenga más información sobre cómo Microsoft Azure puede ayudarle a integrar la IA para optimizar y reforzar los ciclos de vida del crecimiento. aquí.
Scott Guthrie es responsable de soluciones y servicios de computación en la estrato a hiperescala, incluidos Azure, la plataforma de computación en la estrato de Microsoft, soluciones de inteligencia sintético generativa, plataformas de datos e información y ciberseguridad. Estas plataformas y servicios ayudan a organizaciones de todo el mundo a resolver desafíos urgentes e impulsar una transformación a prolongado plazo..
Nota del editor: se realizó una modernización para explicar más claramente cómo optimizamos nuestra red.