Exponiendo vulnerabilidades en los puntos de narración automáticos de LLM: la obligación de mecanismos antitrampas más sólidos

Los puntos de narración automáticos como AlpacaEval 2.0, Arena-Hard-Coche y MTBench han reses popularidad para evaluar LLM adecuado a su asequibilidad y escalabilidad en comparación con la evaluación humana. Estos puntos de narración utilizan anotadores automáticos basados en LLM, que se alinean perfectamente con las preferencias humanas, para proporcionar evaluaciones oportunas de nuevos modelos. Sin […]