A medida que la IA generativa continúa transformando la forma en que las empresas operan, y desarrollan nuevas innovaciones netas, las demandas de infraestructura de capacitación y la implementación de modelos de IA han crecido exponencialmente. Los enfoques de infraestructura tradicionales están luchando por abastecer el ritmo de los requisitos computacionales actuales, las demandas de la red y las evacuación de resiliencia de las cargas de trabajo modernas de IA.
En AWS, además estamos viendo una transformación en todo el panorama tecnológico a medida que las organizaciones pasan de proyectos de IA experimentales a implementaciones de producción a escalera. Este cambio exige infraestructura que pueda ofrecer un rendimiento sin precedentes mientras mantiene la seguridad, la confiabilidad y la rentabilidad. Por eso hemos hecho Inversiones significativas en innovaciones de redes, medios de cuenta especializados e infraestructura resistente Eso está diseñado específicamente para cargas de trabajo de IA.
Acelerar la experimentación y entrenamiento del maniquí con Sagemaker AI
La puerta de entrada a nuestra logística de infraestructura de IA es Amazon Sagemaker AIque proporciona herramientas y flujos de trabajo especialmente diseñados para optimizar la experimentación y acelerar el ciclo de vida del crecimiento del maniquí de extremo a extremo. Una de nuestras innovaciones secreto en esta radio es Amazon Sagemaker Hyperpodque elimina el trabajo pesado indiferenciado involucrado en la construcción y optimización de la infraestructura de IA.
En esencia, Sagemaker HyperPod representa un cambio de prototipo al ir más allá del ceremonia tradicional en el poder computacional en bruto cerca de la dirección inteligente y adaptativa de los medios. Viene con capacidades de resiliencia avanzadas para que los grupos puedan recuperarse automáticamente de las fallas de capacitación maniquí en la pila completa, al tiempo que divide automáticamente las cargas de trabajo de capacitación en miles de aceleradores para el procesamiento paralelo.
El impacto de la confiabilidad de la infraestructura en la eficiencia de capacitación es significativo. En un clúster de 16,000 chips, por ejemplo, cada disminución del 0.1% en la tasa de error del nodo diario perfeccionamiento la productividad del clúster en un 4,2%, traduciendo a posibles ahorros de hasta $ 200,000 por día para un género de GPU de 16,000 H100. Para asaltar este desafío, recientemente presentamos Punto de control de nivel administrado en HyperPodAprovechando la memoria de la CPU para el almacenamiento de punto de control de suspensión rendimiento con replicación cibernética de datos. Esta innovación ayuda a ofrecer tiempos de recuperación más rápidos y es una posibilidad rentable en comparación con los enfoques tradicionales basados en disco.
Para aquellos que trabajan con los modelos más populares de hoy, HyperPod además ofrece más 30 recetas de entrenamiento de maniquí curadoincluido el apoyo para OPERAI GPT-OSS, Deepseek r1Fuego, Mistral y Mixtral. Estas recetas automatizan los pasos secreto como la carga de conjuntos de datos de capacitación, la aplicación de técnicas de capacitación distribuida y la configuración de sistemas para el punto de control y la recuperación de las fallas de infraestructura. Y con el soporte de herramientas populares como Jupyter, VLLM, Langchain y MLFlow, puede establecer aplicaciones contenedorizadas y clústeres de escalera a medida que escalera las cargas de trabajo de capacitación e inferencia de su maniquí de cojín.
Aventajar el cuello de botella: rendimiento de la red
A medida que las organizaciones escalan sus iniciativas de IA de la prueba de concepto a la producción, el rendimiento de la red a menudo se convierte en el cuello de botella crítico que puede hacer o romper el éxito. Esto es particularmente cierto cuando se capacita a modelos de idiomas grandes, donde incluso los retrasos menores en la red pueden ampliar días o semanas al tiempo de entrenamiento y aumentar significativamente los costos. En 2024, la escalera de nuestras inversiones en redes no tenía precedentes; Instalamos más de 3 millones de enlaces de red para acoger nuestro ÚLTIMA FEACA DE NETA AI o infraestructura de 10p10U. Apoyando a más de 20,000 GPU mientras entregan 10s de petabits de pancho de manada con menos de 10 microsegundos de latencia entre servidores, esta infraestructura permite a las organizaciones capacitar modelos masivos que ayer eran poco prácticos o imposiblemente caros. Poner esto en perspectiva: lo que solía aguantar semanas ahora se puede ganar en días, lo que permite a las empresas iterar más rápido y aguantar innovaciones de IA a los clientes ayer.
En el corazón de esta casa de red se encuentra nuestro protocolo revolucionario de enrutamiento impulsado por la intención (SIDR) y Adaptador de tela elástica (EFA). SIDR actúa como un sistema inteligente de control de tráfico que puede redirigir los datos instantáneamente cuando detecta la congestión o las fallas de la red, respondiendo en menos de un segundo, diablos más rápido que los enfoques de red distribuidos tradicionales.
Computación acelerada para AI
Las demandas computacionales de las cargas de trabajo modernas de IA están empujando la infraestructura tradicional a sus límites. Ya sea que esté ajustando un maniquí de cojín para su caso de uso específico o capacitar a un maniquí desde cero, tener la infraestructura de cuenta correcta no se tráfico solo de una potencia cruda, se tráfico de tener la flexibilidad de designar la posibilidad más rentable y capaz para sus evacuación específicas.
AWS ofrece la selección más amplia de las opciones informáticas aceleradas de la industria, ancladas por nuestras dos Asociación de larga data con NVIDIA y nuestras chips de entrenamiento AWS personalizados. El emanación de este año de Instancias P6 presentado Nvidia Blackwell Chips Demuestra nuestro compromiso continuo de aguantar la última tecnología de GPU a nuestros clientes. Las instancias P6-B200 proporcionan 8 GPU NVIDIA Blackwell con 1.4 TB de memoria GPU de suspensión pancho de manada y hasta 3.2 Tbps de redes EFAV4. En pruebas preliminares, clientes como JetBrains ya han gastado más del 85% de tiempos de entrenamiento más rápidos en P6-B200 sobre instancias P5EN basadas en H200 en sus tuberías ML.
Para hacer que la IA sea más asequible y accesible, además desarrollamos AWS Entreniumnuestro chip AI personalizado diseñado específicamente para ML de trabajo. Utilizando una casa de matriz sistólica única, Entrenium crea tuberías informáticas eficientes que reducen las demandas de pancho de manada de memoria. Para simplificar el llegada a esta infraestructura, Bloques de capacidad EC2 para ML además le permite reservar instancias de cuenta aceleradas en el interior de EC2 Ultraclusters Por hasta seis meses, brindando a los clientes llegada predecible al cálculo acelerado que necesitan.
Preparándose para las innovaciones del mañana, hoy
A medida que AI continúa transformando todos los aspectos de nuestras vidas, una cosa está clara: la IA es tan buena como la cojín sobre la que se construye. En AWS, estamos comprometidos a ser esa cojín, entregando la seguridad, la resistor y la innovación continua necesaria para la próxima vivientes de avances de IA. Desde nuestro revolucionario tejido de red 10p10u hasta chips capacitados personalizados, desde ultraservadores P6E-GB200 hasta las capacidades de resiliencia avanzadas de Sagemaker HyperPod, Estamos permitiendo que las organizaciones de todos los tamaños empujen los límites de lo que es posible con AI. Estamos emocionados de ver lo que nuestros clientes construirán a continuación en AWS.
Sobre el autor
Barry Cooks es un experto universal de tecnología empresarial con 25 abriles de experiencia liderando equipos en computación en la abundancia, diseño de hardware, microservicios de aplicaciones, inteligencia químico y más. Como vicepresidente de tecnología en Amazon, es responsable de las abstracciones de cálculo (contenedores, sin servidor, VMware, Micro-VMS), experimentación cuántica, computación de suspensión rendimiento y capacitación de IA. Supervisa los servicios de Key AWS que incluyen AWS Lambda, Amazon Elastic Container Service, Amazon Elastic Kubernetes y Amazon SageMaker. Barry además lidera las iniciativas responsables de la IA en AWS, promoviendo el crecimiento seguro y ético de la IA como una fuerza para el aceptablemente. Antaño de unirse a Amazon en 2022, Barry se desempeñó como CTO en Digitalocean, donde guió a la estructura a través de su exitosa salida a bolsa. Su carrera además incluye roles de liderazgo en VMware y Sun Microsystems. Barry posee una doctorado en informática de la Universidad de Purdue y una EM en informática de la Universidad de Oregón.