Mejorar la calidad de la respuesta para las consultas de los usuarios es esencial para las aplicaciones impulsadas por la IA, especialmente aquellas que se centran en la satisfacción del favorecido. Por ejemplo, un asistente basado en el chat de bienes humanos debe seguir estrictamente las políticas de la empresa y objetar usando un tono determinado. Una desviación de eso puede ser corregida por los comentarios de los usuarios. Esta publicación demuestra cómo Roca principio de Amazoncombinado con un conjunto de datos de feedback de usuarios y pocas solicitudes de disparo, puede refinar las respuestas para una longevo satisfacción del favorecido. Utilizando Amazon Titan Text Increddings v2demostramos una restablecimiento estadísticamente significativa en la calidad de la respuesta, por lo que es una utensilio valiosa para aplicaciones que buscan respuestas precisas y personalizadas.
Estudios recientes han destacado el valía de la feedback y la incorporación en la refinación de las respuestas de AI. Optimización rápida con comentarios humanos Propone un enfoque sistemático para asimilar de los comentarios de los usuarios, utilizándolo para ajustar los modelos iterativamente para mejorar la columna y la robustez. Similarmente, Optimización de solicitud de caja negra: alineando modelos de idiomas grandes sin capacitación en modelos Demuestra cómo la recuperación aumentada de la dependencia de pensamiento, la impulso restablecimiento el formación de pocos disparos al integrar el contexto relevante, permitiendo un mejor razonamiento y la calidad de la respuesta. Sobre la cojín de estas ideas, nuestro trabajo usa el Amazon Titan Text Increddings v2 Maniquí para optimizar las respuestas utilizando la feedback de los usuarios adecuado y la solicitud de pocos disparos, logrando mejoras estadísticamente significativas en la satisfacción del favorecido. Amazon Bedrock ya ofrece un optimización cibernética de inmediato La función para adaptar y optimizar automáticamente las indicaciones sin entrada adicional del favorecido. En esta publicación de blog, mostramos cómo usar las bibliotecas OSS para una optimización más personalizada basada en los comentarios de los usuarios y la solicitud de pocos disparos.
Hemos desarrollado una alternativa maña utilizando Amazon Bedrock que restablecimiento automáticamente las respuestas del asistente de chat en función de los comentarios de los usuarios. Esta alternativa utiliza incrustaciones y pocas solicitudes de disparo. Para demostrar la efectividad de la alternativa, utilizamos un conjunto de datos de comentarios de los usuarios disponibles públicamente. Sin secuestro, al aplicarlo en el interior de una empresa, el maniquí puede usar sus propios datos de feedback proporcionados por sus usuarios. Con nuestro conjunto de datos de prueba, muestra un aumento del 3.67% en los puntajes de satisfacción del favorecido. Los pasos secreto incluyen:
- Recupere un conjunto de datos de comentarios de los usuarios disponibles públicamente (para este ejemplo, Conjunto de datos de feedback unificada en la cara de sobo).
- Cree incrustaciones para consultas para capturar ejemplos similares semánticos, utilizando embedidas de texto de Amazon Titan.
- Use consultas similares como ejemplos en un mensaje de pocos disparos para gestar indicaciones optimizadas.
- Compare las indicaciones optimizadas con directo maniquí de idioma ilustre (LLM) llamadas.
- Valide la restablecimiento en la calidad de la respuesta utilizando una prueba t de muestra pareada.
El ulterior diagrama es una descripción militar del sistema.

Los beneficios secreto del uso de la roca principio de Amazon son:
- Papeleo de infraestructura cero – Implementación y escalera sin establecer la infraestructura de formación mecánico enredado (ML)
- Rentable – Pague solo por lo que usa con la roca principio de Amazon cuota maniquí de precios
- Seguridad de porción empresarial -Utilice las funciones de seguridad y cumplimiento incorporadas de AWS
- Integración sencilla – Integre las aplicaciones existentes sin problemas y las herramientas de código libre
- Opciones de maniquí múltiple – Acceda a varios modelos de cojín (FMS) para diferentes casos de uso
Las siguientes secciones se sumergen más profundamente en estos pasos, proporcionando fragmentos de código desde el cuaderno para ilustrar el proceso.
Requisitos previos
Los requisitos previos para la implementación incluyen una cuenta de AWS con Amazon Bedrock Access, Python 3.8 o posterior, y las credenciales de Amazon configuradas.
Compilación de datos
Descargamos un conjunto de datos de comentarios de los usuarios de Hugging Face, LLM-Blender/Unified-Feedback. El conjunto de datos contiene campos como conv_A_user (la consulta de favorecido) y conv_A_rating (una calificación binaria; 0 significa que al favorecido no le gusta y 1 significa que al favorecido le gusta). El ulterior código recupera el conjunto de datos y se centra en los campos necesarios para integrar la engendramiento y el investigación de feedback. Se puede ejecutar en un Amazon Sagemaker cuaderno o un cuaderno Jupyter que tiene entrada a Amazon Bedrock.
Gestación de muestreo de datos e incrustación
Para establecer el proceso de forma efectiva, probamos 6,000 consultas del conjunto de datos. Utilizamos Amazon Titan Text Increddings V2 para crear incrustaciones para estas consultas, transformando el texto en representaciones de entrada dimensión que permiten comparaciones de similitud. Vea el ulterior código:
Pequeños de disparos con búsqueda de similitud
Para esta parte, tomamos los siguientes pasos:
- Muestra 100 consultas del conjunto de datos para las pruebas. El muestreo de 100 consultas nos ayuda a ejecutar múltiples pruebas para validar nuestra alternativa.
- Calcular similitud de coseno (Medida de similitud entre dos vectores distintos de cero) entre los incrustaciones de estas consultas de prueba y las 6,000 incrustaciones almacenadas.
- Seleccione las consultas similares K similares a las consultas de prueba para servir como pocos ejemplos de disparos. Establecemos K = 10 para equilibrar entre la eficiencia computacional y la riqueza de los ejemplos.
Vea el ulterior código:
Este código proporciona un contexto de pocos disparos para cada consulta de prueba, utilizando una similitud de coseno para recuperar las coincidencias más cercanas. Estas consultas de ejemplo y comentarios sirven como contexto adicional para gobernar la optimización de inmediato. La ulterior función genera el mensaje de pocos disparos:
El get_optimized_prompt La función realiza las siguientes tareas:
- La consulta de favorecido y los ejemplos similares generan un mensaje de pocos disparos.
- Usamos el mensaje de pocos disparos en una emplazamiento LLM para gestar un aviso optimizado.
- Asegúrese de que la salida esté en el ulterior formato usando Pydantic.
Vea el ulterior código:
El make_llm_call_with_optimized_prompt La función utiliza un aviso optimizado y una consulta de favorecido para hacer la emplazamiento LLM (Claude Haiku 3.5) LLM para obtener la respuesta final:
Evaluación comparativa de indicaciones optimizadas y no optimizadas
Para comparar la solicitud optimizada con la carrera de cojín (en este caso, el aviso no optimizado), definimos una función que devolvió un resultado sin una solicitud optimizada para todas las consultas en el conjunto de datos de evaluación:
La ulterior función genera la respuesta de consulta utilizando la búsqueda de similitud y la engendramiento de aviso optimizado intermedio para todas las consultas en el conjunto de datos de evaluación:
Este código compara las respuestas generadas con y sin optimización de pocas disparos, configurando los datos para la evaluación.
LLM como magistrado y evaluación de respuestas
Para cuantificar la calidad de la respuesta, utilizamos un LLM como magistrado para adscribir las respuestas optimizadas y no optimizadas para la columna con la consulta del favorecido. Utilizamos Pydantic aquí para asegurarnos de que la salida se adhiera al patrón deseado de 0 (LLM predice que el favorecido no le gusta la respuesta) o 1 (LLM predice que el favorecido le gustará la respuesta):
LLM-AS-A-Judge es una funcionalidad en la que un LLM puede dictaminar la precisión de un texto utilizando ciertos ejemplos de cojín. Hemos utilizado esa funcionalidad aquí para dictaminar la diferencia entre el resultado recibido de la solicitud optimizada y no optimizada. Amazon Bedrock lanzó un LLM-as-a-Judge Funcionalidad en diciembre de 2024 que puede estilarse para tales casos de uso. En la ulterior función, demostramos cómo el LLM actúa como evaluador, calificando las respuestas basadas en su columna y satisfacción para el conjunto de datos de evaluación completo:
En el ulterior ejemplo, repitimos este proceso para 20 pruebas, capturando los puntajes de satisfacción del favorecido cada vez. La puntuación militar para el conjunto de datos es la suma de la puntuación de satisfacción del favorecido.
Estudio de resultados
El ulterior cuadro de carrera muestra la restablecimiento del rendimiento de la alternativa optimizada sobre la no optimizada. Las áreas verdes indican mejoras positivas, mientras que las áreas rojas muestran cambios negativos.

Al reunir el resultado de 20 ensayos, vimos que la media de los puntajes de satisfacción del aviso no optimizado fue de 0.8696, mientras que la media de los puntajes de satisfacción del aviso optimizado fue de 0.9063. Por lo tanto, nuestro método supera la carrera de cojín en un 3,67%.
Finalmente, ejecutamos una prueba t de muestra emparejada para comparar los puntajes de satisfacción a partir de las indicaciones optimizadas y no optimizadas. Esta prueba estadística validó si la optimización rápida mejoró significativamente la calidad de la respuesta. Vea el ulterior código:
Luego de ejecutar la prueba t, obtuvimos un valía p de 0.000762, que es inferior a 0.05. Por lo tanto, el aumento de rendimiento de las indicaciones optimizadas sobre las indicaciones no optimizadas es estadísticamente significativo.
Control de interruptor
Aprendimos las siguientes conclusiones secreto de esta alternativa:
- Peque indicación de shot restablecimiento la respuesta de la consulta -El uso de ejemplos de pocos disparos muy similares conduce a mejoras significativas en la calidad de la respuesta.
- Amazon Titan Text Increddings permite una similitud contextual – El maniquí produce incrustaciones que facilitan búsquedas de similitud efectivas.
- La empuje estadística confirma la efectividad -Un valía p de 0.000762 indica que nuestro enfoque optimizado restablecimiento significativamente la satisfacción del favorecido.
- Impacto comercial mejorado – Este enfoque ofrece un valía comercial medible a través del rendimiento mejorado del asistente de IA. El aumento del 3.67% en los puntajes de satisfacción se traduce en resultados tangibles: los departamentos de bienes humanos pueden esperar menos interpretaciones erróneas de las políticas (reduciendo los riesgos de cumplimiento), y los equipos de servicio al cliente pueden ver una reducción significativa en los boletos aumentados. La capacidad de la alternativa para asimilar continuamente de la feedback crea un sistema de distribución personal que aumenta el ROI con el tiempo sin requerir experiencia especializada en ML o inversiones en infraestructura.
Limitaciones
Aunque el sistema es prometedor, su rendimiento depende en gran medida de la disponibilidad y el grosor de la feedback de los usuarios, especialmente en aplicaciones de dominio cerrado. En escenarios en los que solo hay un puñado de ejemplos de feedback disponibles, el maniquí podría tener dificultades para gestar optimizaciones significativas o no capturar los matices de las preferencias del favorecido de forma efectiva. Encima, la implementación coetáneo supone que la feedback del favorecido es confiable y representativa de las evacuación más amplias del favorecido, lo que podría no ser siempre el caso.
Siguientes pasos
El trabajo futuro podría centrarse en expandir este sistema para aposentar consultas y respuestas multilingües, lo que permite una aplicabilidad más amplia en diversas bases de usuarios. Incorporación Gestación aumentada de recuperación Las técnicas (trapo) podrían mejorar aún más el manejo y la precisión del contexto para consultas complejas. Encima, explorar formas de encarar las limitaciones en escenarios de devaluación feedback, como la engendramiento de feedback sintética o el formación de transferencia, podría hacer que el enfoque sea más robusto y versátil.
Conclusión
En esta publicación, demostramos la efectividad de la optimización de consultas utilizando el capa de roca de Amazon, la solicitud de pocos disparos y los comentarios de los usuarios para mejorar significativamente la calidad de la respuesta. Al alinear las respuestas con las preferencias específicas del favorecido, este enfoque alivia la carestia de un maniquí costoso justo, lo que lo hace práctico para las aplicaciones del mundo efectivo. Su flexibilidad lo hace adecuado para asistentes basados en chat en varios dominios, como el comercio electrónico, el servicio al cliente y la hospitalidad, donde las respuestas de entrada calidad y alineadas al favorecido son esenciales.
Para obtener más información, consulte los siguientes bienes:
Sobre los autores
Tanay Chowdhury es un verificado de datos en el Centro de Innovación Generativa de AI en Amazon Web Services.
Parth Patwa es un verificado de datos en el Centro de Innovación Generativa de AI en Amazon Web Services.
Yingwei Yu es jefe de ciencias aplicadas en el Centro de Innovación Generativa de AI en Amazon Web Services.