Athrun Data Intelligence


La indigencia de técnicas eficientes y confiables para evaluar el desempeño de los modelos de jerigonza prócer (LLM) está aumentando a medida que estos modelos se incorporan a más y más dominios. Al evaluar la capacidad con la que operan los LLM en interacciones dinámicas del mundo actual, los estándares de evaluación tradicionales se utilizan con frecuencia en conjuntos de datos estáticos, lo que presenta problemas graves.

Donado que las preguntas y respuestas en estos conjuntos de datos estáticos generalmente no cambian, es un desafío predecir cómo respondería un maniquí a las discusiones cambiantes de los usuarios. Muchos de estos puntos de narración exigen que el maniquí utilice conocimientos previos particulares, lo que podría dificultar la evaluación de la capacidad de razonamiento natural de un maniquí. Esta dependencia del conocimiento preestablecido restringe la evaluación de la capacidad de razonamiento e inferencia de un maniquí independientemente de los datos almacenados.

Otros métodos para evaluar los LLM incluyen interacciones dinámicas, como evaluaciones manuales realizadas por evaluadores humanos o el uso de modelos de stop rendimiento como punto de narración. Estos enfoques tienen sus propias desventajas, aunque pueden proporcionar un entorno de evaluación más adaptable. Los modelos fuertes pueden tener un estilo o metodología específica que afecta el proceso de evaluación; por lo tanto, utilizarlos como puntos de narración puede introducir sesgos. La evaluación manual frecuentemente requiere una cantidad significativa de tiempo y fortuna, lo que la hace inviable para aplicaciones a gran escalera. Estas limitaciones llaman la atención sobre la indigencia de un sustituto que equilibre la rentabilidad, la equidad en la evaluación y el carácter dinámico de las interacciones del mundo actual.

Para pasar estos problemas, un equipo de investigadores de China ha introducido TurtleBench, un sistema de evaluación único. TurtleBench emplea una táctica que consiste en compendiar interacciones reales de los usuarios a través de Turtle Soup Puzzle1, una plataforma web especialmente diseñada. Los usuarios de este sitio pueden participar en ejercicios de razonamiento donde deberán adivinar en pulvínulo a circunstancias predeterminadas. Luego se crea un conjunto de datos de evaluación más dinámico utilizando los puntos de datos recopilados de las predicciones de los usuarios. Es menos probable que los modelos que hacen trampa memorizando conjuntos de datos fijos utilicen este enfoque porque los datos cambian en respuesta a interacciones reales del legatario. Esta configuración proporciona una representación más precisa de las capacidades prácticas de un maniquí, lo que incluso garantiza que las evaluaciones estén más estrechamente vinculadas con los requisitos de razonamiento de los usuarios reales.

Las 1.532 conjeturas de los usuarios en el conjunto de datos de TurtleBench van acompañadas de anotaciones que indican la exactitud o inexactitud de cada conjetura. Esto permite examinar en profundidad con qué éxito los LLM realizan tareas de razonamiento. TurtleBench ha llevado a lugar un descomposición minucioso de nueve LLM principales utilizando este conjunto de datos. El equipo compartió que los modelos de la serie OpenAI o1 no ganaron estas pruebas.

Según una teoría que surgió de este estudio, las capacidades de razonamiento de los modelos OpenAI o1 dependen de estrategias de condena de pensamiento (CoT) comparativamente básicas. CoT es una técnica que puede ayudar a que los modelos sean más precisos y claros al originar pasos intermedios de razonamiento antaño de conmover a una conclusión final. Por otro costado, parece que los procesos CoT de los modelos o1 podrían ser demasiado simples o superficiales para funcionar acertadamente en tareas de razonamiento desafiantes. Según otra teoría, aumentar los procesos CoT puede mejorar la capacidad de razonamiento de un maniquí, pero incluso puede unir ruido adicional o información no relacionada o que distraiga, lo que podría causar confusión en el proceso de razonamiento.

Las características dinámicas e impulsadas por el legatario de la evaluación TurtleBench ayudan a respaldar que los puntos de narración sigan siendo aplicables y cambien para cumplir con los requisitos cambiantes de las aplicaciones prácticas.


Mira el Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este plan. Encima, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grhacia lo alto. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 50.000 ml.

(Próximo seminario web en vivo: 29 de octubre de 2024) La mejor plataforma para ofrecer modelos optimizados: motor de inferencia Predibase (promocionado)


Tanya Malhotra es estudiante de extremo año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Químico y Enseñanza Maquinal.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, anejo con un enardecido interés en pescar nuevas habilidades, liderar grupos y mandar el trabajo de modo organizada.



Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *