Athrun Data Intelligence


Los puntos de narración automáticos como AlpacaEval 2.0, Arena-Hard-Coche y MTBench han reses popularidad para evaluar LLM adecuado a su asequibilidad y escalabilidad en comparación con la evaluación humana. Estos puntos de narración utilizan anotadores automáticos basados ​​en LLM, que se alinean perfectamente con las preferencias humanas, para proporcionar evaluaciones oportunas de nuevos modelos. Sin secuestro, las altas tasas de éxito en estos puntos de narración pueden manipularse alterando la duración o el estilo de la producción, aunque se hayan desarrollado medidas para controlar estos factores. Esto genera preocupación de que los adversarios puedan explotar intencionalmente estos puntos de narración para aumentar el impacto promocional y engañar en las evaluaciones de desempeño.

Evaluar la reproducción de texto extenso es un desafío porque se necesita un único resultado correcto. La evaluación humana es confiable pero costosa y requiere mucho tiempo, por lo que los LLM a menudo se utilizan como evaluadores para tareas como feedback de IA, resúmenes y detección de alucinaciones. Los puntos de narración recientes, como G-eval y AlpacaEval, aprovechan los LLM para evaluar el rendimiento del maniquí de forma capaz. Sin secuestro, están surgiendo ataques contradictorios a las evaluaciones basadas en LLM, que permiten la manipulación a través de indicaciones irrelevantes o secuencias optimizadas para sesgar los resultados. Si perfectamente existen defensas como la reescritura rápida, los adversarios continúan encontrando formas de explotar estas vulnerabilidades, lo que destaca la obligación de métodos de evaluación más sólidos.

Investigadores de Sea AI Lab y Singapore Management University demostraron que incluso un «maniquí ignorante» que genera respuestas constantes e irrelevantes puede manipular puntos de narración automáticos de LLM como AlpacaEval 2.0, Arena-Hard-Coche y MT-Bench para ganar altas tasas de beneficio. Al explotar las debilidades de los anotadores automáticos, como GPT-4, las respuestas de trampa estructuradas pueden ganar tasas de beneficio de hasta el 86,5%. Aunque su estudio es una prueba de concepto, muestra el potencial que tienen los adversarios de utilizar los LLM para diseñar estrategias de trampa imperceptibles para obtener beneficios promocionales poco éticos. Esta investigación enfatiza la obligación urgente de mecanismos anti-trampas para asegurar la confiabilidad de los puntos de narración automáticos de LLM.

El estudio presenta un método para manipular los anotadores automáticos utilizados para evaluar los resultados del LLM. El enfoque implica dos estrategias de trampa principales: respuestas de trampa estructuradas y prefijos adversarios generados mediante búsqueda aleatoria. Las respuestas de trampa estructuradas están diseñadas para alinearse con los criterios de evaluación, aprovechando las plantillas de puntuación utilizadas por los anotadores automáticos. Mientras tanto, los prefijos adversarios se insertan estratégicamente al principio de las respuestas para influir en el proceso de puntuación. Estas técnicas, probadas en sistemas como AlpacaEval 2.0, aumentan significativamente las tasas de éxito, lo que demuestra cómo los mecanismos de evaluación pueden errar fácilmente y resaltan las vulnerabilidades en los sistemas de narración de LLM.

Se realizaron amplios estudios de separación en anotadores automáticos de código extenso, específicamente modelos Vehemencia-3-Instruct (parámetros 8B, 70B). Estos modelos demostraron capacidades de evaluación a nivel humano comparables a ChatGPT y GPT-4. La técnica de respuesta estructurada tuvo un impacto intrascendente en el maniquí Vehemencia-3-8B, pero Vehemencia-3-70B mostró un sesgo posicional más válido, especialmente en configuraciones intercambiadas. La búsqueda aleatoria aumentó significativamente las tasas de beneficio para entreambos modelos, con Vehemencia-3-8B aumentando del 2,9% al 95,4% y Vehemencia-3-70B del 0,4% al 95,1%, destacando la efectividad del método para mejorar el rendimiento de las trampas.

En conclusión, el estudio revela que incluso los “modelos nulos”, que constantemente brindan respuestas irrelevantes, pueden explotar las debilidades en los puntos de narración automáticos de LLM y ganar altas tasas de éxito, como el 86,5 % en AlpacaEval 2.0. Estos puntos de narración, incluidos Arena-Hard-Coche y MT-Bench, son rentables para evaluar modelos de idioma pero susceptibles de manipulación. El estudio enfatiza la obligación de mecanismos anti-trampas más sólidos para asegurar la credibilidad de las evaluaciones de modelos. El trabajo futuro debería centrarse en métodos automatizados para originar resultados contradictorios y defensas más sólidas, ya que las estrategias actuales como controlar la duración y el estilo de los resultados son insuficientes.


Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este tesina. Adicionalmente, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Gren lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml

(Próximo evento: 17 de octubre de 202) RetrieveX: la conferencia de recuperación de datos GenAI (promovida)


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia sintético para invadir los desafíos del mundo existente. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida existente.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *