Lumbre 3.3 70B ya adecuado en Amazon SageMaker JumpStart

Hoy nos complace anunciar que Lumbre 3.3 70B de Meta está adecuado en Inicio rápido de Amazon SageMaker. Lumbre 3.3 70B marca un avance emocionante en el expansión de modelos de idioma ilustre (LLM), que ofrece un rendimiento comparable al de versiones más grandes de Lumbre con menos bienes computacionales.

En esta publicación, exploramos cómo implementar este maniquí de forma competente en Amazon SageMaker IAutilizando funciones avanzadas de IA de SageMaker para un rendimiento y una gobierno de costes óptimos.

Descripción universal del maniquí Lumbre 3.3 70B

Lumbre 3.3 70B representa un avance significativo en la eficiencia del maniquí y la optimización del rendimiento. Este nuevo maniquí ofrece una calidad de salida comparable a la Lumbre 3.1 405B y requiere solo una fracción de los bienes computacionales. Según Meta, esta lucro de eficiencia se traduce en operaciones de inferencia casi cinco veces más rentables, lo que la convierte en una opción atractiva para implementaciones de producción.

La sofisticada cimentación del maniquí se pedestal en La interpretación optimizada de Meta del diseño del transformador, presenta un mecanismo de atención mejorado que puede ayudar a someter sustancialmente los costos de inferencia. Durante su expansión, el equipo de ingeniería de Meta entrenó el maniquí en un extenso conjunto de datos que comprende aproximadamente 15 billones de tokens, incorporando contenido de origen web y más de 25 millones de ejemplos sintéticos creados específicamente para el expansión de LLM. Este enfoque de capacitación integral da como resultado capacidades sólidas de reproducción y comprensión del maniquí en diversas tareas.

Lo que distingue a Lumbre 3.3 70B es su refinada metodología de entrenamiento. El maniquí se sometió a un extenso proceso de ajuste supervisado, complementado con estudios por refuerzo a partir de la feedback humana (RLHF). Esta táctica de capacitación de doble enfoque ayuda a alinear más estrechamente los resultados del maniquí con las preferencias humanas, manteniendo al mismo tiempo altos estándares de desempeño. En las evaluaciones de relato frente a su contraparte más ilustre, Lumbre 3.3 70B demostró una consistencia importante, quedando por detrás de Lumbre 3.1 405B en menos del 2% en 6 de 10 puntos de relato de IA típico y, de hecho, superándolo en tres categorías. Este perfil de desempeño lo convierte en un candidato ideal para organizaciones que buscan equilibrar las capacidades del maniquí con la eficiencia operativa.

La ulterior figura resume los resultados de las pruebas comparativas (fuente).

Comenzando con SageMaker JumpStart

SageMaker JumpStart es un centro de estudios maquinal (ML) que puede ayudarlo a acelerar su alucinación al ML. Con SageMaker JumpStart, puede evaluar, comparar y optar modelos de saco (FM) previamente entrenados, incluidos los modelos Lumbre 3. Estos modelos son totalmente personalizables para su caso de uso con sus datos y puede implementarlos en producción mediante la interfaz de adjudicatario o el SDK.

La implementación de Lumbre 3.3 70B a través de SageMaker JumpStart ofrece dos enfoques convenientes: usar la interfaz de adjudicatario intuitiva de SageMaker JumpStart o implementar mediante programación a través del SDK de SageMaker Python. Exploremos entreambos métodos para ayudarle a designar el enfoque que mejor se adapte a sus deposición.

Implemente Lumbre 3.3 70B a través de la interfaz de adjudicatario JumpStart de SageMaker

Puede conseguir a la interfaz de adjudicatario de SageMaker JumpStart a través de Estudio unificado de Amazon SageMaker o Amazon SageMaker Estudio. Para implementar Lumbre 3.3 70B usando la interfaz de adjudicatario JumpStart de SageMaker, complete los siguientes pasos:

En SageMaker Unified Studio, en el Construir menú, elija Modelos JumpStart.

Alternativamente, en la consola de SageMaker Studio, elija Comenzar en el panel de navegación.

Busque Meta Lumbre 3.3 70B.
Elige el maniquí Meta Lumbre 3.3 70B.
Designar Desplegar.
Acepte el acuerdo de osadía de adjudicatario final (EULA).
Para tipo de instancia¸ elija una instancia (ml.g5.48xlarge o ml.p4d.24xlarge).
Designar Desplegar.

Espere hasta que el estado del terminal se muestre como En servicio. Ahora puede ejecutar inferencias utilizando el maniquí.

Implemente Lumbre 3.3 70B utilizando el SDK de Python de SageMaker

Para los equipos que buscan automatizar la implementación o integrarse con canalizaciones MLOps existentes, pueden usar el ulterior código para implementar el maniquí usando el SDK de SageMaker Python:

from sagemaker.serve.builder.model_builder import ModelBuilder
from sagemaker.serve.builder.schema_builder import SchemaBuilder
from sagemaker.jumpstart.model import ModelAccessConfig
from sagemaker.session import Session
import logging

sagemaker_session = Session()

artifacts_bucket_name = sagemaker_session.default_bucket()
execution_role_arn = sagemaker_session.get_caller_identity_arn()

js_model_id = "meta-textgeneration-llama-3-3-70b-instruct"

gpu_instance_type = "ml.p4d.24xlarge"

response = "Hello, I'm a language model, and I'm here to help you with your English."

sample_input = {
    "inputs": "Hello, I'm a language model,",
    "parameters": {"max_new_tokens": 128, "top_p": 0.9, "temperature": 0.6},
}

sample_output = ({"generated_text": response})

schema_builder = SchemaBuilder(sample_input, sample_output)

model_builder = ModelBuilder(
    model=js_model_id,
    schema_builder=schema_builder,
    sagemaker_session=sagemaker_session,
    role_arn=execution_role_arn,
    log_level=logging.ERROR
)

model= model_builder.build()

predictor = model.deploy(model_access_configs={js_model_id:ModelAccessConfig(accept_eula=True)}, accept_eula=True)
predictor.predict(sample_input)

Configurar el escalado maquinal y reducirlo a cero

Opcionalmente, puede configurar el escalado maquinal para reducirlo a cero luego de la implementación. Para obtener más información, consulte Libere ahorros de costos con la nueva función de reducción a cero en SageMaker Inference.

Optimice la implementación con SageMaker AI

SageMaker AI simplifica la implementación de modelos sofisticados como Lumbre 3.3 70B, ofreciendo una escala de funciones diseñadas para optimizar tanto el rendimiento como la rentabilidad. Con las capacidades avanzadas de SageMaker AI, las organizaciones pueden implementar y ordenar LLM en entornos de producción, aprovechando al mayor la eficiencia de Lumbre 3.3 70B mientras se benefician del proceso de implementación optimizado y las herramientas de optimización de SageMaker AI. La implementación predeterminada a través de SageMaker JumpStart utiliza una implementación acelerada, que utiliza decodificación especulativa para mejorar el rendimiento. Para obtener más información sobre cómo funciona la decodificación especulativa con SageMaker AI, consulte Amazon SageMaker lanceta el kit de herramientas de optimización de inferencia actualizado para IA generativa.

En primer espacio, el Cargador rápido de modelos revoluciona el proceso de inicialización del maniquí mediante la implementación de un progresista mecanismo de transmisión de peso. Esta característica cambia fundamentalmente la forma en que se cargan los pesos del maniquí en los aceleradores, lo que reduce drásticamente el tiempo necesario para preparar el maniquí para la inferencia. En espacio del enfoque tradicional de cargar todo el maniquí en la memoria antiguamente de comenzar las operaciones, Fast Model Loader transmite los pesos directamente desde Amazon Simple Storage Service (Amazon S3) al acelerador, lo que permite tiempos de inicio y escalado más rápidos.

Una capacidad de inferencia de SageMaker es Almacenamiento en personalidad de contenedoresque transforma la forma en que se administran los contenedores maniquí durante las operaciones de escalado. Esta característica elimina uno de los principales obstáculos en el escalado de la implementación al acumular en personalidad previamente las imágenes del contenedor, lo que elimina la privación de realizar descargas que consumen mucho tiempo al juntar nuevas instancias. Para modelos grandes como Lumbre 3.3 70B, donde las imágenes del contenedor pueden tener un tamaño considerable, esta optimización reduce significativamente la latencia de escalado y mejoramiento la capacidad de respuesta universal del sistema.

Otra capacidad esencia es Resquilar a cero. Introduce una gobierno inteligente de bienes que ajusta automáticamente la capacidad informática en función de los patrones de uso reales. Esta característica representa un cambio de molde en la optimización de costos para las implementaciones de modelos, lo que permite que los puntos finales se reduzcan por completo durante los períodos de inactividad y, al mismo tiempo, se mantiene la capacidad de subir rápidamente cuando regresa la demanda. Esta capacidad es particularmente valiosa para organizaciones que ejecutan múltiples modelos o manejan patrones de carga de trabajo variables.

Juntas, estas características crean un poderoso entorno de implementación que maximiza los beneficios de la cimentación competente de Lumbre 3.3 70B al tiempo que proporciona herramientas sólidas para encargar los costos operativos y el rendimiento.

Conclusión

La combinación de Lumbre 3.3 70B con las funciones de inferencia avanzadas de SageMaker AI proporciona una alternativa óptima para implementaciones de producción. Al utilizar las capacidades Fast Model Loader, Container Caching y Scale to Zero, las organizaciones pueden conseguir un parada rendimiento y rentabilidad en sus implementaciones de LLM.

Le animamos a que pruebe esta implementación y comparta sus experiencias.

Sobre los autores

marc karp es un arquitecto de estudios maquinal en el equipo de servicio de Amazon SageMaker. Se centra en ayudar a los clientes a diseñar, implementar y encargar cargas de trabajo de estudios maquinal a escalera. En su tiempo vacancia le gusta delirar y explorar nuevos lugares.

Saurabh Trikande es regente senior de productos para Amazon Bedrock y SageMaker Inference. Le apasiona trabajar con clientes y socios, motivado por el objetivo de democratizar la IA. Se centra en los desafíos principales relacionados con la implementación de aplicaciones complejas de IA, la inferencia con modelos multiinquilino, la optimización de costos y hacer más accesible la implementación de modelos de IA generativa. En su tiempo vacancia, Saurabh disfruta hacer senderismo, asimilar sobre tecnologías innovadoras, seguir TechCrunch y acontecer tiempo con su comunidad.

Melanie LiPhD, es arquitecta sénior de soluciones especializada en IA generativa en AWS con sede en Sydney, Australia, donde se centra en trabajar con los clientes para crear soluciones que aprovechen las herramientas de estudios maquinal y de IA de última reproducción. Ha participado activamente en múltiples iniciativas de IA generativa en APJ, aprovechando el poder de los modelos de idioma ilustre (LLM). Antiguamente de unirse a AWS, el Dr. Li ocupó puestos de ciencia de datos en las industrias financiera y minorista.

Adriana Simmons es regente senior de marketing de productos en AWS.

Lokeshwaran Ravi es ingeniero sénior de compiladores de estudios profundo en AWS y se especializa en optimización de estudios maquinal, velocidad de modelos y seguridad de IA. Se centra en mejorar la eficiencia, someter costos y crear ecosistemas seguros para democratizar las tecnologías de IA, haciendo que el estudios maquinal de vanguardia sea accesible y tenga impacto en todas las industrias.

Yotam Moss es regente de expansión de software para inferencia en AWS AI.

Etiquetado 70B, Amazon, disponible, JumpStart, Llama, SageMaker