Imagine un sistema que puede explorar múltiples enfoques para problemas complejos, aprovechando su comprensión de grandes cantidades de datos, desde conjuntos de datos científicos hasta código fuente y documentos comerciales y razonamiento a través de las posibilidades en tiempo actual. Este razonamiento de exhalación no está esperando en el horizonte. Está sucediendo hoy en los entornos de producción de IA de nuestros clientes. La escalera de los sistemas de IA que nuestros clientes están construyendo hoy (descubrimiento de medicamentos de llegada, búsqueda empresarial, expansión de software y más) es efectivamente trascendental. Y hay mucho más por delante.
Para acelerar la innovación en los desarrollos de IA generativos emergentes, como los modelos de razonamiento y los sistemas de IA en agente, estamos entusiasmados de anunciar la disponibilidad caudillo de Ultraservadores P6E-GB200acelerado por Nvidia Grace Blackwell Superchips. Los ultraservadores P6E-GB200 están diseñados para capacitar y implementar los modelos de IA más grandes y sofisticados. A principios de este año, lanzamos Instancias P6-B200acelerado por las GPU NVIDIA Blackwell, para diversas cargas de trabajo informáticas de IA y de stop rendimiento.
En esta publicación, compartimos cómo estas poderosas soluciones de enumeración se basan en todo lo que hemos aprendido sobre la entrega de infraestructura de GPU segura y confiable a gran escalera, para que los clientes puedan pasar con confianza los límites de la IA.
Cumplir con las demandas de enumeración en expansión de las cargas de trabajo de IA
Los ultraservadores P6E-GB200 representan nuestra ofrecimiento de GPU más potente hasta la data, que presenta hasta 72 GPU NVIDIA Blackwell interconectadas utilizando NVIDIA NVLINK de casa de campo procreación, todo funcionando como una sola mecanismo de enumeración. Cada ultraservador ofrece 360 petaflops masivos de cálculo denso FP8 y 13.4 TB de memoria de GPU de stop satisfecho de bandada total (HBM3E), que es más de 20 veces el enumeración y más de 11 veces el memoria en un solo dominio NVLINK en comparación con los casos P5EN. Los ultraservadores P6E-GB200 admiten hasta 28.8 tbps satisfecho de bandada unido del adaptador de tela elástico de cuarta procreación (EFAV4) las redes. Las instancias de P6-B200 son una opción versátil para una amplia tonalidad de casos de uso de IA. Cada instancia proporciona 8 GPU NVIDIA Blackwell interconectadas con NVLink con 1.4 TB de memoria GPU de stop satisfecho de bandada, hasta 3.2 Tbps de redes EFAV4 y procesadores escalables Intel Xeon de casa de campo procreación. Las instancias P6-B200 ofrecen hasta 2.25 veces las tflops de GPU, 1.27 veces el tamaño de la memoria de la GPU y 1.6 veces el satisfecho de bandada de la memoria GPU en comparación con las instancias de P5EN.
¿Cómo elige entre P6E-GB200 y P6-B200? Esta comicios se reduce a sus requisitos específicos de carga de trabajo y deposición de construcción:
- Los ultraservadores P6E-GB200 son ideales para las cargas de trabajo de IA más intensivas en el enumeración y la memoria, como la capacitación y la implementación de modelos fronterizos a escalera de billones de parámetros. Su construcción NVIDIA GB200 NVL72 efectivamente brilla a esta escalera. Imagine que las 72 GPU funcionan como una, con un espacio de memoria unificado y una distribución de carga de trabajo coordinada. Esta construcción permite una capacitación distribuida más competente al achicar la sobrecarga de comunicación entre los nodos de GPU. Para cargas de trabajo de inferencia, la capacidad de contener completamente los modelos de billones de parámetros adentro de un solo dominio NVLINK significa tiempos de respuesta más rápidos y consistentes a escalera. Cuando se combinan con técnicas de optimización como el servicio desglosado con Nvidia Dynamo, el gran tamaño de dominio de la construcción GB200 NVL72 desbloquea una eficiencia de inferencia significativa para diversas arquitecturas de modelos, como la mezcla de modelos de expertos. GB200 NVL72 es particularmente potente cuando necesita manejar ventanas de contexto extra en caudillo o ejecutar aplicaciones de ingreso calidad en tiempo actual.
- Las instancias P6-B200 admiten una amplia tonalidad de cargas de trabajo de IA y son una opción ideal para cargas de trabajo e inferencia de mediana a gran escalera. Si desea transferir sus cargas de trabajo GPU existentes, las instancias P6-B200 ofrecen una configuración casero de 8 GPU que minimiza los cambios en el código y simplifica la migración de las instancias de procreación actuales. Por otra parte, aunque la pila de software AI de NVIDIA está optimizada tanto para ARM como para X86, si sus cargas de trabajo están específicamente construidas para entornos X86, las instancias P6-B200, con sus procesadores Intel Xeon, será su opción ideal.
Innovación basada en las fortalezas centrales de AWS
Traer Nvidia Blackwell a AWS no se proxenetismo de un solo avance, se proxenetismo de innovación continua en múltiples capas de infraestructura. Al desarrollar abriles de formación e innovación a través de los servicios de enumeración, redes, operaciones y administrados, hemos traído las capacidades completas de Nvidia Blackwell con la confiabilidad y el rendimiento que los clientes esperan de AWS.
Seguridad y estabilidad de instancias robustas
Cuando los clientes me dicen por qué eligen ejecutar sus cargas de trabajo de GPU en AWS, surge un punto crucial de guisa consistente: valoran mucho nuestro enfoque en la seguridad y la estabilidad de las instancias en la montón. El hardware especializado, el software y el firmware del Sistema AWS Nitro están diseñados para hacer cumplir las restricciones para que nadie, incluido a nadie en AWS, pueda conseguir a sus cargas y datos de AI confidenciales. Más allá de la seguridad, el sistema Nitro cambia fundamentalmente la forma en que mantenemos y optimizamos la infraestructura. El sistema Nitro, que maneja las redes, el almacenamiento y otras funciones de E/S, permite implementar actualizaciones de firmware, correcciones de errores y optimizaciones mientras sigue operante. Esta capacidad de poner al día sin tiempo de inactividad del sistema, que llamamos Aggiornamento en vivoes crucial en el paisaje de IA de hoy, donde cualquier interrupción afecta significativamente los plazos de producción. P6E-GB200 y P6-B200 cuentan con la sexta procreación del sistema nitro, pero estos beneficios de seguridad y estabilidad no son nuevos: nuestra construcción nitro innovadora ha sido protegiendo y optimizando Nubarrón de enumeración elástica de Amazon (Amazon EC2) Cargas de trabajo desde 2017.
Rendimiento confiable a escalera masiva
En la infraestructura de IA, el desafío no es solo alcanzar una escalera masiva: está ofreciendo un rendimiento y confiabilidad consistentes a esa escalera. Hemos implementado ultraservadores P6E-GB200 en ultraclusters EC2 de tercera procreación, que crea un tejido único que puede comprender nuestros centros de datos más grandes. Los ultraclusters de tercera procreación reducen el consumo de energía hasta en un 40% y reducen los requisitos de cableado en más del 80%, no solo mejorar la eficiencia, sino que incluso reduce significativamente los puntos potenciales de equivocación.
Para ofrecer un rendimiento constante a esta escalera masiva, usamos Adaptador de tela elástica (EFA) con su protocolo de datagrama confiable escalable, que enruta de guisa inteligente el tráfico a través de múltiples rutas de red para apoyar un funcionamiento sin problemas incluso durante la congestión o las fallas. Hemos mejorado continuamente el rendimiento de EFA en cuatro generaciones. Las instancias P6E-GB200 y P6-B200 con EFAV4 muestran comunicaciones colectivas hasta un 18% más rápidas en el entrenamiento distribuido en comparación con las instancias P5EN que usan EFAV3.
Eficiencia de infraestructura
Mientras que las instancias P6-B200 utilizan nuestra infraestructura de refrigeramiento por clima probada, los ultraservadores P6E-GB200 usan refrigeramiento claro, lo que permite una maduro densidad de enumeración en grandes arquitecturas de dominio NVLINK, que ofrecen un maduro rendimiento del sistema. P6E-GB200 se enfría claro con nuevas soluciones de refrigeramiento mecánica que proporcionan refrigeramiento de claro a chip configurable en centros de datos nuevos y existentes, por lo que podemos reconocer aceleradores refrigerados por líquidos e infraestructura de red e redacencia refrigerada por clima en la misma instalación. Con este diseño de refrigeramiento flexible, podemos ofrecer el mayor rendimiento y eficiencia al pequeño costo.
Comenzando con Nvidia Blackwell en AWS
Hemos simplificado con los ultraservadores P6E-GB200 e instancias P6-B200 a través de múltiples rutas de implementación, por lo que puede comenzar rápidamente a usar GPU de Blackwell mientras mantiene el maniquí operante que funciona mejor para su ordenamiento.
Amazon Sagemaker Hyperpod
Si está acelerando su expansión de IA y desea producirse menos tiempo administrando la infraestructura y las operaciones de clúster, ahí es exactamente donde Amazon Sagemaker Hyperpod sobresale. Proporciona infraestructura administrada y resistente que maneja automáticamente el aprovisionamiento y la mandato de grandes grupos de GPU. Seguimos mejorando Sagemaker HyperPod, agregando innovaciones como planes de capacitación flexibles para ayudarlo a obtener plazos de capacitación predecibles y llevar la batuta cargas de trabajo de capacitación adentro de sus requisitos de presupuesto.
Sagemaker HyperPod admitirá tanto los ultraservadores P6E-GB200 como las instancias P6-B200, con optimizaciones para maximizar el rendimiento al apoyar las cargas de trabajo adentro del mismo dominio NVLink. Igualmente estamos construyendo en un sistema integral de recuperación de múltiples capas: Sagemaker HyperPod reemplazará automáticamente instancias defectuosas con repuestos preconfigurados en el mismo dominio NVLink. Los paneles incorporados le darán visibilidad de todo, desde la utilización de la GPU y el uso de la memoria hasta las métricas de carga de trabajo y el estado de sanidad de ultraservador.
Amazon Eks
Para cargas de trabajo de IA a gran escalera, si prefiere llevar la batuta su infraestructura con Kubernetes, Servicio de Kubernetes de Amazon Elastic (Amazon EKS) es a menudo el plano de control de comicios. Continuamos impulsando innovaciones en Amazon EKS con capacidades como Nodos híbridos de Amazon EKSque le permiten llevar la batuta tanto las GPU locales como las EC2 en un solo clúster, flexibilidad de entrega para cargas de trabajo de IA.
Amazon EKS admitirá tanto ultraservadores P6E-GB200 como instancias P6-B200 con aprovisionamiento automatizado y mandato de ciclos de vida a través de grupos de nodos administrados. Para los ultraservadores P6E-GB200, estamos construyendo una conciencia de topología que comprende la construcción GB200 NVL72, etiquetando automáticamente nodos con su ID de ultraservador e información de topología de red para permitir una ubicación de carga de trabajo óptima. Podrá comprender grupos de nodos en múltiples ultraservadores o dedicarlos a ultraservadores individuales, dándole flexibilidad para organizar su infraestructura de entrenamiento. Amazon EKS monitorea los errores de GPU y acelerador y los transmite al plano de control de Kubernetes para una remediación opcional.
Nvidia DGX Cloud en AWS
Los ultraservadores P6E-GB200 incluso estarán disponibles a través de NVIDIA DGX Cloud. DGX Cloud es una plataforma AI unificada optimizada en cada capa con capacidades de capacitación de IA múltiples nodos e inferencia y la pila completa de software AI de NVIDIA. Usted se beneficia de las últimas optimizaciones de NVIDIA, recetas de evaluación comparativa y experiencia técnica para mejorar la eficiencia y el rendimiento. Ofrece longitudes de términos flexibles contiguo con el soporte y servicios integrales de expertos en NVIDIA para ayudarlo a acelerar sus iniciativas de IA.
Este anuncio de divulgación es un hito importante, y es solo el manifestación. A medida que las capacidades de IA evolucionan rápidamente, necesita infraestructura construida no solo para las demandas de hoy sino para todas las posibilidades que se avecinan. Con innovaciones a través de la computa, las redes, las operaciones y los servicios administrados, los ultraservadores P6E-GB200 y las instancias P6-B200 están listas para habilitar estas posibilidades. No podemos esperar a ver qué construirá con ellos.
Medios
Sobre el autor
David Brown es el vicepresidente de servicios de AWS Compute and Machine Learning (ML). En este papel, es responsable de construir todos los servicios de AWS Compute y ML, incluidos Amazon EC2, Amazon Container Services, AWS Lambda, Amazon Bedrock y Amazon Sagemaker. Todos los servicios son utilizados por todos los clientes de AWS, pero incluso sustentan la mayoría de las aplicaciones internas de Amazon de AWS. Igualmente dirige soluciones más nuevas, como AWS Outposts, que traen servicios de AWS a los centros de datos privados de los clientes.
David se unió a AWS en 2007 como ingeniero de expansión de software con sede en Ciudad del Extremo, Sudáfrica, donde trabajó en el expansión temprano de Amazon EC2. En 2012, se mudó a Seattle y continuó trabajando en la ordenamiento más amplia de Amazon EC2. En los últimos 11 abriles, ha asumido roles de liderazgo más grandes a medida que más productos AWS Compute y ML se han convertido en parte de su ordenamiento.
Ayer de unirse a Amazon, David trabajó como desarrollador de software en una startup de la industria financiera. Tiene un título en Ciencias de la Computación y Bienes de la Universidad Nelson Mandela en Port Elizabeth, Sudáfrica.