Amazon SageMaker Inference ahora admite instancias G6e

A medida que la demanda de IA generativa continúa creciendo, los desarrolladores y las empresas buscan aceleradores más flexibles, rentables y potentes para satisfacer sus micción. Hoy, estamos encantados de anunciar la disponibilidad de instancias G6e con tecnología de las GPU L40S Tensor Core de NVIDIA en Amazon SageMaker. Tendrá la opción de aprovisionar nodos con 1, 4 y 8 instancias de GPU L40S, y cada GPU proporcionará 48 GB de memoria de suspensión ufano de cuadrilla (HBM). Este propagación proporciona a las organizaciones la capacidad de utilizar una instancia de GPU de un solo nodo (G6e.xlarge) para penetrar potentes modelos básicos de código despejado como Vehemencia 3.2 11 B Vision, Vehemencia 2 13 B y Qwen 2.5 14B, lo que ofrece a las organizaciones un costo -Opción efectiva y de suspensión rendimiento. Esto lo convierte en una opción perfecta para quienes buscan optimizar costos y al mismo tiempo apoyar un suspensión rendimiento para cargas de trabajo de inferencia.

Los aspectos más destacados de las instancias G6e incluyen:

El doble de memoria GPU en comparación con las instancias G5 y G6, lo que permite la implementación de modelos de lenguajes grandes en FP16 hasta:
- Maniquí de parámetros 14B en un solo nodo GPU (G6e.xlarge)
- Maniquí de parámetros 72B en un nodo de 4 GPU (G6e.12xlarge)
- Maniquí de parámetros 90B en un nodo de 8 GPU (G6e.48xlarge)
Hasta 400 Gbps de rendimiento de red
Hasta 384 GB de memoria GPU

Casos de uso

Las instancias G6e son ideales para ajustar e implementar modelos de lenguajes grandes (LLM) abiertos. Nuestros puntos de relato muestran que G6e proporciona un decano rendimiento y es más rentable en comparación con las instancias G5, lo que las convierte en una opción ideal para su uso en casos de uso en tiempo actual y de muerto latencia, como:

Chatbots e IA conversacional
Coexistentes y sumario de texto.
Coexistentes de imágenes y modelos de visión.

Asimismo hemos observado que G6e funciona admisiblemente para la inferencia con ingreso concurrencia y con contextos de decano duración. Hemos proporcionado puntos de relato completos en la posterior sección.

Conducta

En las dos figuras siguientes, vemos que para contextos de distancia larga de 512 y 1024, G6e.2xlarge proporciona hasta un 37 % más de latencia y un 60 % mejor rendimiento en comparación con G5.2xlarge para un maniquí Vehemencia 3.1 8B.

En las dos figuras siguientes, vemos que G5.2xlarge genera un CUDA sin memoria (OOM) al implementar el maniquí LLama 3.2 11B Vision, mientras que G6e.2xlarge proporciona un gran rendimiento.

En las dos figuras siguientes, comparamos el nodo G5.48xlarge (8 GPU) con el nodo G6e.12xlarge (4 GPU), que cuesta un 35 % menos y tiene más rendimiento. Para una decano concurrencia, vemos que G6e.12xlarge proporciona una latencia un 60 % beocio y un rendimiento 2,5 veces decano.

En la posterior figura, comparamos el costo por 1000 tokens al implementar Vehemencia 3.1 70b, lo que resalta aún más los beneficios de costo/rendimiento del uso de instancias G6e en comparación con G5.

Tutorial de implementación

Requisitos previos

Para probar esta alternativa con SageMaker, necesitará los siguientes requisitos previos:

Despliegue

Puede clonar el repositorio y utilizar el cuaderno proporcionado. aquí.

Lavar

Para evitar incurrir en cargos innecesarios, se recomienda fregar los capital implementados cuando termine de usarlos. Puede eliminar el maniquí implementado con el posterior código:

predictor.delete_predictor()

Conclusión

Las instancias G6e en SageMaker desbloquean la capacidad de implementar una amplia variedad de modelos de código despejado de modo rentable. Con una capacidad de memoria superior, un rendimiento mejorado y una rentabilidad, estas instancias representan una alternativa convincente para las organizaciones que buscan implementar y progresar sus aplicaciones de IA. La capacidad de manejar modelos más grandes, aposentar longitudes de contexto más largas y apoyar un suspensión rendimiento hace que las instancias G6e sean particularmente valiosas para las aplicaciones modernas de IA. Prueba el código para implementar con G6e.

Acerca de los autores

Vivek Gangasani es arquitecto senior de soluciones especializado en GenAI en AWS. Ayuda a las empresas emergentes de GenAI a crear soluciones innovadoras utilizando los servicios de AWS y la computación acelerada. Actualmente, se centra en desarrollar estrategias para afinar y optimizar el rendimiento de inferencia de modelos de estilo grandes. En su tiempo expedito, Vivek disfruta haciendo senderismo, viendo películas y probando diferentes platos.

Alan Tan es director senior de productos en SageMaker y lidera los esfuerzos en la inferencia de modelos grandes. Le apasiona aplicar el formación necesario al dominio de descomposición. Fuera del trabajo, disfruta del flato expedito.

Pavan Kumar Madduri es arquitecto de soluciones asociado en Amazon Web Services. Tiene un gran interés en diseñar soluciones innovadoras en IA generativa y le apasiona ayudar a los clientes a exprimir el poder de la estrato. Obtuvo su arte en Tecnología de la Información de la Universidad Estatal de Arizona. Fuera del trabajo, le gusta nadar y ver películas.

Michael Nguyen es arquitecto sénior de soluciones de inicio en AWS y se especializa en exprimir la IA/ML para impulsar la innovación y desarrollar soluciones comerciales en AWS. Michael posee 12 certificaciones de AWS y tiene una carrera y arte en ingeniería eléctrica e informática y un MBA de la Universidad Penn State, la Universidad de Binghamton y la Universidad de Delaware.

Etiquetado admite, ahora, Amazon, G6e, inference, instancias, SageMaker