Athrun Data Intelligence


Para seguir siendo competitivas, las empresas de todos los sectores utilizan modelos básicos (FM) para variar sus aplicaciones. Aunque los FM ofrecen impresionantes capacidades listas para usar, conquistar una verdadera delantera competitiva a menudo requiere una profunda personalización del maniquí mediante capacitación previa o ajuste. Sin confiscación, estos enfoques exigen experiencia vanguardia en IA, computación de suspensión rendimiento, camino rápido al almacenamiento y pueden resultar prohibitivamente costosos para muchas organizaciones.

En esta publicación, exploramos cómo las organizaciones pueden topar estos desafíos y personalizar y adaptar de modo rentable los FM mediante servicios administrados de AWS, como Trabajos de formación de Amazon SageMaker y HiperPod de Amazon SageMaker. Analizamos cómo estas poderosas herramientas permiten a las organizaciones optimizar los bienes informáticos y acortar la complejidad del entrenamiento y ajuste del maniquí. Exploramos cómo puede tomar una valor informada sobre qué servicio de Amazon SageMaker es más aplicable a sus evacuación y requisitos comerciales.

Desafío empresarial

Hoy en día, las empresas enfrentan numerosos desafíos a la hora de implementar y encargar eficazmente iniciativas de educación obligatorio (ML). Estos desafíos incluyen subir las operaciones para manejar datos y modelos en rápido crecimiento, acelerar el crecimiento de soluciones de educación obligatorio y ordenar infraestructuras complejas sin desviar el enfoque de los objetivos comerciales centrales. Adicionalmente, las organizaciones deben navegar por la optimización de costos, permanecer la seguridad y el cumplimiento de los datos y democratizar tanto la facilidad de uso como el camino a las herramientas de educación obligatorio entre los equipos.

Los clientes han creado sus propias arquitecturas de educación obligatorio en máquinas básicas utilizando soluciones de código descubierto como Kubernetes, Slurm y otras. Si proporcionadamente este enfoque proporciona control sobre la infraestructura, la cantidad de esfuerzo necesaria para ordenar y permanecer la infraestructura subyacente (por ejemplo, fallas de hardware) a lo desprendido del tiempo puede ser sustancial. Las organizaciones a menudo subestiman la complejidad que implica integrar estos diversos componentes, permanecer la seguridad y el cumplimiento, y permanecer el sistema actualizado y optimizado para el rendimiento.

Como resultado, muchas empresas luchan por usar todo el potencial del educación obligatorio y al mismo tiempo permanecer la eficiencia y la innovación en un panorama competitivo.

Cómo puede ayudar Amazon SageMaker

Amazon SageMaker aborda estos desafíos proporcionando un servicio totalmente ventilado que agiliza y acelera todo el ciclo de vida del educación obligatorio. Puede utilizar el conjunto completo de herramientas de SageMaker para crear y entrenar sus modelos a escalera mientras descarga la empresa y el mantenimiento de la infraestructura subyacente a SageMaker.

Puede utilizar SageMaker para subir su montón de capacitación a miles de aceleradores, con su propia sufragio de computación y optimizar sus cargas de trabajo para el rendimiento con Bibliotecas de formación distribuidas de SageMaker. Para la resiliencia del clúster, SageMaker ofrece capacidades de autorreparación que detectan y se recuperan automáticamente de fallas, lo que permite una capacitación FM continua durante meses con poca o ninguna interrupción y reduce el tiempo de capacitación hasta en un 40 %. SageMaker además admite marcos de educación obligatorio populares como TensorFlow y PyTorch a través de aplicaciones administradas. contenedores prefabricados. Para aquellos que necesitan más personalización, SageMaker además permite a los usuarios incorporar sus propias bibliotecas o contenedores.

Para topar diversos casos de uso técnico y empresarial, Amazon SageMaker ofrece dos opciones para la capacitación previa distribuida y el ajuste: trabajos de capacitación de SageMaker y SageMaker HyperPod.

Trabajos de formación de SageMaker

Los trabajos de capacitación de SageMaker ofrecen una experiencia de favorecido administrada para capacitación de FM distribuida y de gran tamaño, lo que elimina el trabajo pesado indiferenciado en torno a la empresa de infraestructura y la resiliencia del clúster, al tiempo que ofrece una opción de suscripción por uso. Los trabajos de capacitación de SageMaker activan automáticamente una distribución resiliente montón de formaciónproporciona orquestación administrada, monitorea la infraestructura y se recupera automáticamente de fallas para una experiencia de capacitación fluida. Una vez completada la capacitación, SageMaker desactiva el clúster y se estructura al cliente el tiempo neto de capacitación en segundos. Los creadores de FM pueden optimizar aún más esta experiencia utilizando Piscinas cálidas administradas por SageMakerque le permite conservar y reutilizar la infraestructura aprovisionada a posteriori de completar un trabajo de capacitación para acortar la latencia y acelerar el tiempo de iteración entre diferentes experimentos de educación obligatorio.

Con los trabajos de capacitación de SageMaker, los creadores de FM tienen la flexibilidad de nominar el tipo de instancia adecuado que mejor se adapte a un individuo para optimizar aún más su presupuesto de capacitación. Por ejemplo, puede entrenar previamente un maniquí de jerigonza amplio (LLM) en un clúster P5 o ajustar un LLM de código descubierto en instancias p4d. Esto permite a las empresas ofrecer una experiencia de favorecido de capacitación consistente entre equipos de ML con diferentes niveles de experiencia técnica y diferentes tipos de carga de trabajo.

Adicionalmente, los trabajos de capacitación de Amazon SageMaker integran herramientas como Perfilador SageMaker para la formación de perfiles laborales, Amazon SageMaker con MLflow para encargar experimentos de ML, Amazon CloudWatch para monitoreo y alertas, y Tablero Tensor para depurar y analizar trabajos de formación. Juntas, estas herramientas mejoran el crecimiento de modelos al ofrecer información sobre el rendimiento, realizar un seguimiento de experimentos y proveer la diligencia proactiva de los procesos de formación.

Laboratorios AI21, Instituto de Innovación Tecnológica, Altaneroy bria ai eligieron trabajos de capacitación de SageMaker para capacitar y ajustar sus FM con un costo total de propiedad escaso al descargar la orquestación de la carga de trabajo y la empresa de la computación subyacente a SageMaker. Obtuvieron resultados más rápidos al centrar sus bienes en el crecimiento y la experimentación de modelos, mientras SageMaker manejaba el aprovisionamiento, la creación y la terminación de sus clústeres informáticos.

La posterior demostración proporciona una supervisión paso a paso de suspensión nivel para utilizar los trabajos de capacitación de Amazon SageMaker.

HiperPod SageMaker

SageMaker HyperPod ofrece clústeres persistentes con un control profundo de la infraestructura, que los desarrolladores pueden usar para conectarse a través de Secure Shell (SSH) a instancias de Amazon Elastic Compute Cloud (Amazon EC2) para capacitación vanguardia de modelos, empresa de infraestructura y depuración. Para maximizar la disponibilidad, HyperPod mantiene un conjunto de instancias dedicadas y de repuesto (sin costo adicional para el cliente), minimizando el tiempo de inactividad para los reemplazos de nodos críticos. Los clientes pueden utilizar herramientas de orquestación familiares como Slurm o Servicio Amazon Elastic Kubernetes (Amazon EKS) y las bibliotecas creadas sobre estas herramientas para una programación de trabajos flexible y el uso compartido de computación. Adicionalmente, orquestando clústeres de SageMaker HyperPod con Slurm permite que la integración de Enroot y Pyxis de NVIDIA programe rápidamente contenedores como entornos aislados sin privilegios y de suspensión rendimiento. El sistema operante y la pila de software se basan en la AMI de educación profundoque están preconfigurados con NVIDIA CUDA, NVIDIA CUDNNy las últimas versiones de PyTorch y TensorFlow. HyperPod además incluye bibliotecas de capacitación distribuidas de SageMaker, que están optimizadas para la infraestructura de AWS, de modo que los usuarios puedan dividir automáticamente las cargas de trabajo de capacitación entre miles de aceleradores para una capacitación paralela valioso.

Los creadores de FM pueden usar herramientas de educación obligatorio integradas en HyperPod para mejorar el rendimiento del maniquí, como el uso Amazon SageMaker con TensorBoard visualizar un maniquí de cimentación y topar problemas de convergencia, mientras Depurador de Amazon SageMaker captura métricas y perfiles de entrenamiento en tiempo auténtico. Adicionalmente, la integración con herramientas de observabilidad como Información sobre contenedores de Amazon CloudWatch, Servicio administrado de Amazon para Prometheusy Grafana administrada por Amazon Ofrece información más profunda sobre el rendimiento, el estado y la utilización del clúster, lo que ahorra un valioso tiempo de crecimiento.

Este entorno de suspensión rendimiento y autorreparación, en el que confían clientes como Artículo8, IBM, Perplejidad IA, abrazando la cara, lumay Thomson Reutersadmite flujos de trabajo de educación obligatorio avanzados y optimizaciones internas.

La posterior demostración proporciona una supervisión paso a paso de suspensión nivel para utilizar Amazon SageMaker HyperPod.

Designar la opción correcta

Para las organizaciones que requieren un control granular sobre la infraestructura de capacitación y amplias opciones de personalización, SageMaker HyperPod es la opción ideal. HyperPod ofrece configuraciones de red personalizadas, estrategias de paralelismo flexibles y soporte para técnicas de orquestación personalizadas. Se integra perfectamente con herramientas como Slurm, Amazon EKS, Enroot de Nvidia y Pyxis, y proporciona camino SSH para una depuración en profundidad y configuraciones personalizadas.

Los trabajos de capacitación de SageMaker están diseñados para organizaciones que desean centrarse en el crecimiento de modelos en puesto de la diligencia de infraestructura y prefieren la facilidad de uso con una experiencia administrada. Los trabajos de capacitación de SageMaker cuentan con una interfaz obediente de usar, configuración y escalado simplificados, manejo obligatorio de tareas de capacitación distribuidas, sincronización integrada, puntos de control, tolerancia a fallas y contemplación de las complejidades de la infraestructura.

Al nominar entre SageMaker HyperPod y trabajos de capacitación, las organizaciones deben alinear su valor con sus evacuación de capacitación específicas, preferencias de flujo de trabajo y nivel deseado de control sobre la infraestructura de capacitación. HyperPod es la opción preferida para quienes buscan un control técnico profundo y una amplia personalización, y los trabajos de capacitación son ideales para organizaciones que prefieren una posibilidad optimizada y totalmente administrada.

Conclusión

Obtenga más información sobre Amazon SageMaker y la capacitación distribuida a gran escalera en AWS visitando Inmersión a Amazon SageMakermirando el IA generativa en Amazon SageMaker Deep Dive Seriesy explorando el impresionante entrenamiento distribuido y ejemplos-de-amazon-sagemaker Repositorios de GitHub.


Sobre los autores

Trevor Harvey es doble principal en IA generativa en Amazon Web Services y arquitecto de soluciones profesional certificado por AWS. Trevor trabaja con los clientes para diseñar e implementar soluciones de educación obligatorio y lidera estrategias de comercialización de servicios de IA generativa.

Kanwaljit Khurmi es arquitecto principal de soluciones generativas de IA/ML en Amazon Web Services. Trabaja con clientes de AWS para brindarles orientación y público técnica, ayudándolos a mejorar el valencia de sus soluciones cuando utilizan AWS. Kanwaljit se especializa en ayudar a los clientes con aplicaciones de educación obligatorio y en contenedores.

Observador Perel es director principal de crecimiento empresarial de educación obligatorio en Amazon Web Services. Miron asesora a empresas de IA generativa en la construcción de sus modelos de próxima engendramiento.

Guillaume Mangeot Es arquitecto senior de soluciones especializado en WW GenAI en Amazon Web Services con más de una decenio de experiencia en informática de suspensión rendimiento (HPC). Con experiencia multidisciplinaria en matemáticas aplicadas, lidera el diseño de cimentación en extremo escalable en campos de vanguardia como GenAI, ML, HPC y almacenamiento, en varios sectores verticales que incluyen petróleo y gas, investigación, ciencias biológicas y seguros.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *