Hoy estamos entusiasmados de presentar el Clasificación de texto y Pregunta y respuesta Plantillas de UI a los clientes de Sagemaker AI. El Clasificación de texto La plantilla permite a los anotadores humanos clasificar múltiples respuestas de un maniquí de jerga ilustre (LLM) basado en criterios personalizados, como relevancia, claridad o precisión objetiva. Esta feedback clasificada proporciona información crítica que ayudan a refinar modelos a través del educación de refuerzo de la feedback humana (RLHF), generando respuestas que se alinean mejor con las preferencias humanas. El Pregunta y respuesta La plantilla facilita la creación de pares de preguntas y respuestas de ingreso calidad basadas en pasajes de texto proporcionados. Estas parejas actúan como datos de demostración Para el ajuste superior supervisado (SFT), enseñando modelos sobre cómo objetar a entradas similares con precisión.
En esta publicación de blog, lo guiaremos a través de cómo configurar estas plantillas en Sagemaker para crear conjuntos de datos de ingreso calidad para capacitar a sus grandes modelos de idiomas. Exploremos cómo puede utilizar estas nuevas herramientas.
Clasificación de texto
El Plantilla de clasificación de texto Permite a los anotadores clasificar múltiples respuestas de texto generadas por un maniquí de jerga ilustre basado en criterios personalizables, como relevancia, claridad o corrección. Los anotadores se presentan con una rápida y varias respuestas generadas por el maniquí, que clasifican de acuerdo con las pautas específicas de su caso de uso. Los datos clasificados se capturan en un formato estructurado, que detalla los índices de clasificación para cada criterio, como «claridad» o «inclusión». Esta información es invaluable para modelos de ajuste fino que usan RLHF, alineando los resultados del maniquí más estrechamente con las preferencias humanas. Encima, esta plantilla incluso es enormemente efectiva para evaluar la calidad de las panorama LLM al permitirle ver qué tan perfectamente las respuestas coinciden con los criterios previstos.
Configurar en la consola de AI de Sagemaker
Un nuevo IA generativa La categoría se ha apéndice bajo el tipo de tarea en la consola AI Sagemaker, lo que le permite aspirar estas plantillas. Para configurar el trabajo de etiquetado utilizando el Consola de gobierno de AWScomplete los siguientes pasos:
- En la consola AI Sagemaker, debajo Verdad fundamental En el panel de navegación, elija Trabajo de etiquetado.
- Designar Crear trabajo de etiquetado.
- Especifique su ubicación de entrada y ruta de salida. Para configurar el archivo de entrada de clasificación de texto, use el Configuración de datos manuales bajo Crear trabajo de etiquetado e ingrese un archivo JSON con el aviso almacenado en el campo de origen, mientras que la letanía de respuestas del maniquí se coloca en el campo Respuestas. La clasificación de texto no es compatible Configuración de datos automatizada.
Aquí hay un ejemplo de nuestro archivo de manifiesto de entrada:
Cargue este archivo de manifiesto de entrada en su ubicación S3 y proporcione la ruta S3 a este archivo en Ubicación del conjunto de datos de entrada:
- Inclinarse IA generativa Como tipo de tarea y elija la interfaz de afortunado de clasificación de texto.
- Designar Próximo.
- Ingrese sus instrucciones de etiquetado. Ingrese las dimensiones que desea incluir en el Dimensiones de clasificación sección. Por ejemplo, en la imagen de en lo alto, las dimensiones son Utilidad y Claridadpero puede unir, eliminar o personalizarlos en función de sus deyección específicas haciendo clic en el gema «+» para unir nuevas dimensiones o el icono de basura para eliminarlas. Encima, tiene la opción de Permitir clasificaciones de corbata seleccionando la casilla de demostración. Esta opción permite a los anotadores clasificar dos o más respuestas por igual si creen que las respuestas son de la misma calidad para una dimensión particular.
- Designar Avance Para mostrar la plantilla de UI para su revisión.
- Designar Crear Para crear el trabajo de etiquetado.
Cuando los anotadores presentan sus evaluaciones, sus respuestas se guardan directamente en su cubo S3 especificado. El archivo de manifiesto de salida incluye los campos de datos originales y un trabajador-respuesta-reinsegable que apunta a un archivo de respuesta del trabajador en S3. Este archivo de respuesta del trabajador contiene las respuestas clasificadas para cada dimensión especificada, que puede estilarse para ajustar o evaluar las panorama de su maniquí. Si varios anotadores han trabajado en el mismo objeto de datos, sus anotaciones individuales se incluyen internamente de este archivo bajo una esencia de respuestas, que es una variedad de respuestas. Cada respuesta incluye la entrada y los metadatos del anotador, como el tiempo de recibimiento, el tiempo de pedido y la identificación del trabajador. Aquí hay un ejemplo del archivo JSON de salida que contiene las anotaciones:
Pregunta y respuesta
El Plantilla de preguntas y respuestas Le permite crear conjuntos de datos para ajuste fino supervisado (SFT) generando pares de preguntas y respuestas a partir de pasajes de texto. Los anotadores leen el texto proporcionado y crean preguntas relevantes y respuestas correspondientes. Este proceso actúa como una fuente de datos de demostraciónguiando el maniquí sobre cómo manejar tareas similares. La plantilla admite una entrada flexible, permitiendo que los anotadores hagan relato a pasajes completos o secciones específicas de texto para preguntas y respuestas más específicas. Una función de coincidencia codificada por colores vincula visualmente las preguntas con las secciones relevantes, ayudando a optimizar el proceso de anotación. Al usar estos pares de preguntas y respuestas, perfeccionamiento la capacidad del maniquí para seguir las instrucciones y objetar con precisión a las entradas del mundo auténtico.
Configurar en la consola de AI de Sagemaker
El proceso para configurar un trabajo de etiquetado con la plantilla de preguntas y respuestas sigue pasos similares a la plantilla de clasificación de texto. Sin requisa, existen diferencias en la forma en que configura el archivo de entrada y seleccione la plantilla de interfaz de afortunado apropiada para adaptarse a la tarea de preguntas y respuestas.
- En la consola AI Sagemaker, debajo Verdad fundamental En el panel de navegación, elija Trabajo de etiquetado.
- Designar Crear trabajo de etiquetado.
- Especifique su ubicación de entrada y ruta de salida. Para configurar el archivo de entrada de preguntas y respuestas, use el Configuración de datos manuales y cargue un archivo JSON donde el campo de origen contiene el pasaje de texto. Los anotadores usarán este texto para crear preguntas y respuestas. Tenga en cuenta que puede cargar el texto desde un archivo .txt o .csv y usar la verdad de tierra Configuración de datos automatizada Para convertirlo en el formato JSON requerido.
Aquí hay un ejemplo de un archivo de manifiesto de entrada:
Cargue este archivo de manifiesto de entrada en su ubicación S3 y proporcione la ruta S3 a este archivo en Ubicación del conjunto de datos de entrada
- Inclinarse IA generativa Como tipo de tarea y elija el Pregunta y respuesta Ui
- Designar Próximo.
- Ingrese sus instrucciones de etiquetado. Puede configurar configuraciones adicionales para controlar la tarea. Puede especificar el número leve y mayor de pares de preguntas y respuestas que los trabajadores deben crear desde el pasaje de texto proporcionado. Encima, puede aclarar los recuentos de palabras leve y mayor para los campos de preguntas y respuestas, de modo que las respuestas se ajusten a sus requisitos. Todavía puede unir etiquetas de preguntas opcionales para clasificar los pares de preguntas y respuestas. Por ejemplo, puede incluir etiquetas como «qué», «cómo» o «por qué» mandar a los anotadores en su tarea. Si estas etiquetas predefinidas son insuficientes, tiene la opción de permitir que los trabajadores ingresen sus propias etiquetas personalizadas habilitando el Permitir a los trabajadores especificar etiquetas personalizadas característica. Esta flexibilidad facilita las anotaciones que satisfacen las deyección específicas de su caso de uso.
- Una vez que se configuran estas configuraciones, puede designar Avance la interfaz de afortunado para comprobar que satisfaga sus deyección antiguamente de continuar.
- Designar Crear Para crear el trabajo de etiquetado.
Cuando los anotadores presentan su trabajo, sus respuestas se guardan directamente en su cubo S3 especificado. El manifiesto de salida El archivo contiene los campos de datos originales cercano con un trabajador-respaldo-reh Eso apunta al archivo de respuesta del trabajador en S3. Este archivo de respuesta del trabajador incluye las anotaciones detalladas proporcionadas por los trabajadores, como las respuestas clasificadas o los pares de preguntas y respuestas generadas para cada tarea.
Aquí hay un ejemplo de cómo podría estar la salida:
CreateLabelingJob API
Encima de crear estos trabajos de etiquetado a través de la consola AI de Amazon Sagemaker, los clientes incluso pueden usar el Crear API de trabajo de etiquetado Para configurar la clasificación de texto y las preguntas y objetar a los trabajos mediante programación. Este método proporciona más flexibilidad para la automatización e integración en los flujos de trabajo existentes. Usando la API, puede aclarar configuraciones de trabajo, manifestaciones de entrada y plantillas de tareas de trabajadores, y monitorear el progreso del trabajo directamente desde su aplicación o sistema.
Para una norte paso a paso sobre cómo implementar esto, puede consultar los siguientes cuadernos, que caminan a través de todo el proceso de configuración de flujos de trabajo humanos en el rizo (HITL) para el educación de refuerzo de la feedback humana (RLHF) utilizando tanto la clasificación de texto como las plantillas de preguntas y respuestas. Estos cuadernos lo guiarán a través de la configuración de los requisitos previos de la Verdad de tierra requerido, descargando archivos JSON de muestra con indicaciones y respuestas, convertirlos en manifestaciones de entrada de verdad terrestres, crear plantillas de tareas de trabajadores y monitorear los trabajos de etiquetado. Todavía cubren el procesamiento posterior a los resultados para crear un conjunto de datos consolidado con respuestas clasificadas.
Conclusión
Con la preámbulo de la clasificación de texto y las plantillas de preguntas y respuestas, Amazon Sagemaker AI faculta a los clientes crear conjuntos de datos de ingreso calidad para capacitar modelos de idiomas grandes de modo más capaz. Estas capacidades incorporadas simplifican el proceso de ajuste de modelos para tareas específicas y alinean sus resultados con las preferencias humanas, ya sea a través del ajuste o el educación de refuerzo supervisado de la feedback humana. Al utilizar estas plantillas, puede evaluar y refinar mejor sus modelos para satisfacer las deyección de su aplicación específica, ayudando a conquistar panorama más precisas, confiables y alineadas por el afortunado. Ya sea que esté creando conjuntos de datos para capacitar o evaluar las panorama de sus modelos, Sagemaker AI proporciona las herramientas que necesita para tener éxito en la creación de soluciones de IA generativas de última concepción. Para comenzar a crear conjuntos de datos ajustados con las nuevas plantillas:
Sobre los autores
Sundar Raghavan es un arquitecto de soluciones especialistas generativas de IA en AWS, que ayuda a los clientes a usar Amazon Bedrock y los servicios de AWS de próxima concepción para diseñar, construir e implementar agentes de IA y aplicaciones de IA generativas escalables. En su tiempo fugado, a Sundar le encanta explorar nuevos lugares, probar restaurantes locales y abrazar al espacio fugado.
Jesse Manders es regente de productos senior en Amazon Bedrock, el servicio de desarrollador de IA Generation AWS. Trabaja en la intersección de la IA y la interacción humana con el objetivo de crear y mejorar los productos y servicios generativos de IA para satisfacer nuestras deyección. Anteriormente, Jesse tenía roles de liderazgo del equipo de ingeniería en Apple y Lumileds, y era verificado senior en una startup de Silicon Valley. Tiene una EM y Ph.D. de la Universidad de Florida, y un MBA de la Maña de Negocios de la Universidad de California, Berkeley, Haas.
Niharika jayanti es ingeniera front-end en Amazon, donde diseña y desarrolla interfaces de usuarios para deleitar a los clientes. Ella contribuyó al exitoso divulgación de LLM Evaluation Tools en Amazon Bedrock y Amazon Sagemaker Unified Studio. Fuera del trabajo, a Niharika le gusta nadar, chocar el campo y groching.
Muyun Yan es ingeniero de software senior en Amazon Web Services (AWS) Sagemaker AI Equipo. Con más de 6 primaveras en AWS, se especializa en el explicación de plataformas de etiquetado basadas en el educación inconsciente. Su trabajo se centra en construir e implementar aplicaciones de software innovadoras para soluciones de etiquetado, lo que permite a los clientes penetrar a las capacidades de etiquetado de vanguardia. Muyun posee una EM en ingeniería informática de la Universidad de Boston.
Kavya kotra es ingeniero de software en el equipo de verdad de Amazon SageMaker Ground, que ayuda a crear aplicaciones de software escalables y confiables. Kavya jugó un papel esencia en el explicación y el divulgación de las herramientas de IA generativas en Sagemaker. Anteriormente, Kavya tenía roles de ingeniería internamente de las redes de AWS EC2 y Amazon Audible. En su tiempo fugado, le gusta pintar y explorar la imagen de la naturaleza de Seattle.
Alan Ismaiel es ingeniero de software en AWS con sede en la ciudad de Nueva York. Se enfoca en construir y prolongar productos AI/ML escalables, como Amazon Sagemaker Ground Truth y Amazon Bedrock. Fuera del trabajo, Alan está aprendiendo a competir pickleball, con resultados mixtos.