Athrun Data Intelligence


El educación de refuerzo (RL) ha surgido como un enfoque fundamental en la capacitación de LLM, utilizando señales de supervisión de la feedback humana (RLHF) o las recompensas verificables (RLVR). Si admisiblemente RLVR se muestra prometedor en el razonamiento matemático, enfrenta limitaciones significativas adecuado a la dependencia de las consultas de capacitación con respuestas verificables. Este requisito limita las aplicaciones a la capacitación a gran escalera sobre consultas de dominios generales donde la demostración resulta intratable. Por otra parte, los modelos de premio actuales, clasificados en tipos escalares y generativos, no pueden subir efectivamente el tiempo de prueba para la estimación de recompensas. Los enfoques existentes aplican posibles computacionales uniformes en todas las entradas, sin adaptabilidad para asignar posibles adicionales a consultas desafiantes que requieren un disección matizado.

Las estrategias de formulación y los esquemas de puntuación caracterizan los modelos de premio. Los enfoques numéricos asignan puntajes escalares a pares de respuesta de consulta, mientras que los métodos generativos producen feedback del lengua natural. La puntuación sigue la evaluación absoluta de pares individuales o comparación discriminativa de las respuestas candidatas. Los modelos de premio generativo, alineados con el ideal LLM-As-A-Judge, ofrecen comentarios interpretables pero enfrentan preocupaciones de confiabilidad adecuado a juicios sesgados. Los métodos de escalera de tiempo de inferencia ajustan dinámicamente los posibles computacionales, incluidas las estrategias paralelas como el muestreo múltiple y la escalera basada en horizonte para trazas de razonamiento extendidas. Sin confiscación, carecen de acomodo sistemática a la complejidad de la entrada, lo que limita su efectividad en diversos tipos de consultas.

Investigadores de Microsoft Research, la Universidad de Tsinghua y la Universidad de Pekín han propuesto modelos de razonamiento de recompensas (RRMS), que realizan un razonamiento palmario antiguamente de producir recompensas finales. Esta escalón de razonamiento permite que los RRM asignen adaptativamente posibles computacionales adicionales al evaluar las respuestas a tareas complejas. RRMS introduce una dimensión para mejorar el modelado de recompensas mediante la escalera de tiempo de prueba mientras mantiene la aplicabilidad universal en diversos escenarios de evaluación. A través del razonamiento de la dependencia de pensamiento, los RRM utilizan un cálculo adicional de tiempo de prueba para consultas complejas cuando las recompensas apropiadas no son evidentes de inmediato. Esto alienta a los RRM a las capacidades de razonamiento de recompensas autovolucionar sin rastreos de razonamiento palmario como datos de capacitación.

RRMS utilizan el maniquí QWEN2 con una red troncal de transformador-decodificador, formulando el modelado de recompensas como finalización del texto donde los RRM generan procesos de pensamiento de forma autorregresiva seguidas de los juicios finales. Cada entrada contiene una consulta y dos respuestas para determinar la preferencia sin permitir lazos. Los investigadores usan el repositorio de recompensas para conducir el disección sistemático a través de los criterios de evaluación, incluida la fidelidad de la instrucción, la ayuda, la precisión, la inofensiva y el nivel de detalle. RRMS admite la evaluación de la respuesta múltiple a través de sistemas de calificación ELO y torneos de aniquilación de knockout, entreambos combinables con la mayoría de la votación de la mayoría por la utilización mejorada de tiempo de cálculo de la prueba. Esto muestra RRMS varias veces para las comparaciones por pares, realizando votación mayoritaria para obtener resultados de comparación sólidos.

Los resultados de la evaluación muestran que los RRM logran un rendimiento competitivo contra las líneas de pulvínulo fuertes en los puntos de remisión de prueba de premio y pandalm, con RRM-32B alcanzando una precisión del 98.6% en las categorías de razonamiento. La comparación con los modelos de DirectJudge entrenados en datos idénticos revela brechas de rendimiento sustanciales, lo que indica que los RRM usan efectivamente el enumeración de tiempo de prueba para consultas complejas. En la mejor inferencia guiada por recompensas, RRMS superan todos los modelos de remisión sin enumeración adicional de tiempo de prueba, y la mayoría de la mayoría de la mayoría proporcionan mejoras sustanciales en los subconjuntos evaluados. Los experimentos posteriores a la capacitación muestran mejoras de rendimiento aguas debajo constantes en MMLU-Pro y GPQA. Los experimentos de escalera en modelos 7B, 14B y 32B confirman que los horizontes de pensamiento más largos mejoran constantemente la precisión.

En conclusión, los investigadores introdujeron RRM para realizar procesos de razonamiento explícitos antiguamente de la asignación de recompensas para chocar la inflexibilidad computacional en los enfoques de modelado de recompensas existentes. RL de premio basada en reglas permite a RRMS desarrollar capacidades de razonamiento complejas sin requerir trazas de razonamiento explícitas como supervisión. RRMS utilizan eficientemente el cálculo del tiempo de prueba a través de enfoques de escalera paralelos y secuenciales. La efectividad de las RRM en aplicaciones prácticas, incluida la mejor inferencia de la mejor inferencia de recompensas y la feedback posterior al entrenamiento, demuestra su potencial como fuertes alternativas a los modelos tradicionales de premio subir en las técnicas de columna.


Mira el Papel y Modelos en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este tesina. Por otra parte, siéntete desocupado de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Sajjad Ansari es un pregrado de final año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo actual. Su objetivo es articular conceptos complejos de IA de forma clara y accesible.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *