Athrun Data Intelligence


Microsoft está aportando nuevos estándares en energía, refrigeración, sostenibilidad, seguridad, redes y resiliencia de flotas para avanzar en la innovación.

En la transición de la construcción de infraestructura informática a escalera de abundancia a la construcción de infraestructura de abundancia e inteligencia químico a escalera de frontera, el mundo de la informática ha experimentado cambios tectónicos en la innovación. A lo liberal de este alucinación, Microsoft ha compartido sus aprendizajes y mejores prácticas, optimizando nuestra infraestructura de abundancia en foros intersectoriales como la Open Compute Project (OCP) Total Foundation.

Hoy, vemos que la subsiguiente etapa de innovación de la infraestructura de la abundancia está indicación a ser el período de transformación más trascendental hasta el momento. Tan solo el año pasado, Microsoft agregó más de 2 gigavatios de nueva capacidad y lanzó el centro de datos de IA más poderoso del mundo, que ofrece 10 veces el rendimiento de la supercomputadora más rápida del mundo en la presente. Sin requisa, esto es sólo el aparición.

Ofrecer una infraestructura de IA con el anciano rendimiento y el último costo requiere un enfoque de sistemas, con optimizaciones en toda la pila para impulsar la calidad, la velocidad y la resiliencia a un nivel que pueda desear una experiencia consistente a nuestros clientes. En la búsqueda de suministrar tecnología resiliente, sustentable, segura y ampliamente escalable para manejar la amplitud de las cargas de trabajo de IA, nos estamos embarcando en un nuevo y angurriento alucinación: uno no solo de redefinir la innovación de infraestructura en cada capa de ejecución, desde el silicio hasta los sistemas, sino uno de columna industrial estrechamente integrada en estándares que ofrecen un maniquí para la interoperabilidad y estandarización general.

En la Cumbre Total OCP de este año, Microsoft está aportando nuevos estándares en energía, refrigeración, sostenibilidad, seguridad, redes y resiliencia de flotas para avanzar aún más en la innovación en la industria.

Redefiniendo la distribución de energía para la era de la IA

A medida que las cargas de trabajo de IA escalan a nivel mundial, los centros de datos de hiperescala están experimentando desafíos de distribución y densidad de energía sin precedentes.

El año pasado, en la Cumbre Total de OCP, nos asociamos con Meta y Google en el explicación de Mt. Diablo, una cimentación de energía desagregada. Este año, estamos construyendo sobre esta innovación con el subsiguiente paso de nuestra transformación completa de sistemas de energía de centros de datos: transformadores de estado sólido. Los transformadores de estado sólido simplifican la esclavitud eléctrica con nuevas tecnologías de conversión y esquemas de protección que pueden adaptarse a los requisitos futuros de voltaje del rack.

Entrenar modelos grandes en miles de GPU asimismo introduce patrones de consumo de energía intensos y variables que pueden sobrecargar la red. La empresa de servicios públicos y los sistemas tradicionales de suministro de energía. Estas fluctuaciones no solo ponen en aventura la confiabilidad del hardware y la eficiencia operativa, sino que asimismo crean desafíos en la planificación de la capacidad y los objetivos de sostenibilidad.

Yuxtapuesto con socios esencia de la industria, Microsoft lidera una iniciativa de estabilización de energía para acometer este desafío. En un artículo publicado recientemente con OpenAI y NVIDIA:Estabilización de energía para centros de datos de entrenamiento de IA—Abordamos cómo las innovaciones de pila completa que abarcan hardware a nivel de rack, orquestación de firmware, telemetría predictiva e integración de instalaciones pueden suavizar los picos de energía, achicar el exceso de energía en un 40 % y mitigar el aventura operante y los costos para permitir una entrega de energía predecible y escalable para los clústeres de capacitación de IA.

Este año, en la Cumbre Total OCP, Microsoft unirá fuerzas con socios de la industria para exhalar un especie de trabajo dedicado a la estabilización de energía. Nuestro objetivo es fomentar la colaboración abierta entre hiperescaladores y socios de hardware, compartiendo nuestros aprendizajes de la innovación completa e invitando a la comunidad a desarrollar conjuntamente nuevas metodologías que aborden los desafíos energéticos únicos de los centros de datos de entrenamiento de IA. Al explotar los conocimientos de nuestro noticia técnico publicado recientemente, nuestro objetivo es acelerar la acogida en toda la industria de soluciones de suministro de energía resilientes y escalables para la próxima gestación de infraestructura de IA. Lea más sobre nuestros esfuerzos de estabilización de energía.

Innovaciones de refrigeración para la resiliencia

A medida que cambia el perfil energético de la infraestructura de IA, asimismo continuamos rediseñando nuestra infraestructura de refrigeración para satisfacer las micción cambiantes en torno al consumo de energía, la optimización del espacio y la sostenibilidad caudillo del centro de datos. Se deben implementar varias soluciones de refrigeración para respaldar la escalera de nuestra expansión: mientras buscamos construir nuevos centros de datos a escalera de IA, asimismo estamos utilizando refrigeración líquida basada en unidades de intercambio de calor (HXU) para implementar rápidamente nueva capacidad de IA interiormente de nuestra huella de centro de datos refrigerado por viento existente.

El HXU de próxima gestación de Microsoft es una próxima contribución de OCP que permite la refrigeración líquida para sistemas de IA de detención rendimiento en centros de datos refrigerados por viento, lo que respalda la escalabilidad general y la implementación rápida. El diseño modular de HXU ofrece el doble de rendimiento que los modelos actuales y mantiene una disponibilidad del servicio de refrigeración >99,9 % para cargas de trabajo de IA. No se requieren modificaciones del centro de datos, lo que permite una integración y expansión perfectas. Obtenga más información sobre el HXU de próxima gestación aquí.

Mientras tanto, continuamos innovando en múltiples capas de la pila para acometer los cambios en la energía y la disipación de calor: utilizando refrigeración por agua de las instalaciones a escalera de centro de datos, haciendo circular deducido en circuitos cerrados desde el servidor hasta el enfriador; y explorar innovaciones de refrigeración en chips, como microfluidos, para eliminar de forma competente el calor directamente del silicio.

Soluciones de redes unificadas para las crecientes demandas de infraestructura

Medrar cientos de miles de GPU para que funcionen como un sistema único y coherente conlleva desafíos importantes para crear interconexiones a escalera de rack que puedan ofrecer estructuras de herido latencia y detención pancho de manada que sean eficientes e interoperables. A medida que las cargas de trabajo de IA crecen exponencialmente y las demandas de infraestructura se intensifican, estamos explorando optimizaciones de redes que puedan satisfacer estas micción. Con ese fin, hemos desarrollado soluciones que aprovechan las soluciones de ampliación, ampliación y red de dominio amplia (WAN) para permitir la capacitación distribuida a gran escalera.

Nos asociamos estrechamente con organismos de normalización, como UEC (Exaltado Ethernet Consortium) y UALink, centrados en la innovación en tecnologías de redes para este pájaro crítico de los sistemas de IA. Incluso estamos impulsando la acogida de Ethernet para la ampliación de redes en todo el ecosistema y estamos entusiasmados de ver el Tirada del flujo de trabajo Ethernet para redes de ampliación (ESUN) en el situación del Tesina de redes OCP. Esperamos promover la acogida de soluciones de redes de vanguardia y permitir un ecosistema de múltiples proveedores basado en estándares abiertos.

Seguridad, sostenibilidad y calidad: pilares fundamentales para operaciones de IA resilientes

Defensa en profundidad: confianza en cada capa

Nuestro enfoque integral para prosperar los sistemas de IA de forma responsable incluye incorporar confianza y seguridad en cada capa de nuestra plataforma. Este año, presentamos nuevas contribuciones de seguridad que se basan en nuestro trabajo existente en seguridad de hardware e introducimos nuevos protocolos que son excepcionalmente aptos para respaldar nuevos avances científicos que se han acelerado con la entrada de la IA:

  • Aprovechando las contribuciones de primaveras anteriores y la colaboración de Microsoft con AMD, Google y NVIDIA, hemos mejorado aún más Caliptra, nuestra raíz de confianza de silicio de código libre. La entrada de Caliptra 2.1 extiende la raíz de confianza del hardware a un subsistema de seguridad completo. Obtenga más información sobre Caliptra 2.1 aquí.
  • Incluso agregamos Adams Bridge 2.0 a Caliptra para extender el soporte para algoritmos criptográficos cuánticos resistentes a la raíz de confianza.
  • Finalmente, estamos contribuyendo con la compañía de claves criptográficas (LOCK) de código libre en capas OCP, un coalición de compañía de claves para dispositivos de almacenamiento que protege las claves de secreto de medios en el hardware. LOCK se desarrolló gracias a la colaboración entre Google, Kioxia, Microsoft, Samsung y Solidigm.

Avanzando en la sostenibilidad a escalera de centro de datos

La sostenibilidad sigue siendo una importante dominio de oportunidad para la colaboración y la estandarización de la industria a través de comunidades como Open Compute Project. Trabajar en colaboración como un ecosistema de hiperescaladores y socios de hardware es un catalizador para acometer la exigencia de una infraestructura de centro de datos sostenible que pueda prosperar de forma efectiva a medida que las demandas informáticas continúan evolucionando. Este año, nos complace continuar nuestras colaboraciones como parte del especie de trabajo de Sostenibilidad de OCP en áreas como informes de carbono, contabilidad y circularidad:

  • Anunciado en la Cumbre Total de este año, nos asociaremos con AWS, Google y Meta para financiar la iniciativa Product Category Rule bajo el especie de trabajo OCP Sustainability, con el objetivo de estandarizar la metodología de medición de carbono para dispositivos y equipos de centros de datos.
  • Yuxtapuesto con Google, Meta, OCP, Schneider Electric y iMasons Climate Accord, estamos estableciendo el Delimitación básica de divulgación de carbono incorporado Establecer un situación global para informar el impacto de carbono de los equipos del centro de datos.
  • Microsoft está avanzando en la acogida de la reutilización del calor residual (WHR). En asociación con NetZero Innovation Hub, NREL y colaboradores de la UE y EE. UU., Microsoft ha publicado diseños de narración de reutilización de calor y está desarrollando una aparejo de modelado crematístico que proporciona a los operadores de centros de datos y a los consumidores/aprovechadores de calor residual el costo necesario para desarrollar la infraestructura de reutilización del calor residual en función de condiciones como el tamaño y la capacidad del sistema WHR, la temporada, la ubicación, los mandatos de WHR y los subsidios vigentes. Estas soluciones específicas de la región ayudan a los operadores a convertir el exceso de calor en energía aprovechable, cumpliendo con los requisitos regulatorios y desbloqueando nueva capacidad, especialmente en regiones como Europa donde la reutilización del calor se está volviendo obligatoria.
  • Hemos desarrollado una metodología abierta para la Evaluación del Ciclo de Vida (LCA) a escalera en flotas de hardware de TI a gran escalera para avanzar con destino a un «normalizado de oro» en infraestructura de abundancia sostenible.

Repensar la mandato de nodos: resiliencia operativa de la flota para la era de la frontera

A medida que la infraestructura de IA escalera a un ritmo sin precedentes, Microsoft está invirtiendo en estandarizar cómo se implementan, actualizan, monitorean y dan servicio a diversos nodos informáticos en los centros de datos de hiperescala. En colaboración con AMD, Arm, Google, Intel, Meta y NVIDIA, estamos impulsando una serie de contribuciones de Open Compute Project (OCP) centradas en optimizar las operaciones de la flota, igualar la mandato del firmware, las interfaces de capacidad de mandato y mejorar las capacidades de diagnosis, depuración y RAS (confiabilidad, disponibilidad y capacidad de servicio). Este enfoque estandarizado para la mandato del ciclo de vida sienta las bases para operaciones de nodos consistentes y escalables durante este período de rápida expansión. Lea más sobre nuestro enfoque para operaciones de flotas resilientes.

Allanando el camino para la informática de IA a escalera de frontera

A medida que entramos en una nueva era de explicación de IA a escalera fronteriza, Microsoft se enorgullece de liderar el avance de los estándares que impulsarán el futuro de la supercomputación de IA implementable conjuntamente. Nuestro compromiso se refleja en nuestro papel activo en la configuración del ecosistema que permite una infraestructura de IA escalable, segura y confiable en todo el mundo. Invitamos a los asistentes a la Cumbre Total OCP de este año a conectarse con Microsoft en el stand #B53 para descubrir nuestras últimas demostraciones de hardware en la abundancia. Estas demostraciones muestran nuestras colaboraciones continuas con socios de toda la comunidad OCP, destacando las innovaciones que respaldan la cambio de la IA y las tecnologías de la abundancia.

Conéctese con Microsoft en la Cumbre Total OCP 2025 y más allá



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *