Los modelos de jerga excelso (LLM) generan respuestas paso a paso conocidas como cautiverio de pensamientos (COTS), donde cada token contribuye a una novelística coherente y dialéctica. Para mejorar la calidad del razonamiento, se han empleado varias técnicas de formación de refuerzo. Estos métodos permiten al maniquí memorizar de los mecanismos de feedback al alinear las panorama generadas con los criterios de corrección. A medida que los LLM crecen en complejidad y capacidad, los investigadores han comenzado a sondear la estructura interna de la engendramiento de tokens para discernir patrones que mejoran o limitan el rendimiento. Un ámbito que ardor la atención es la distribución de la entropía de tokens, una medición de la incertidumbre en la predicción del token, que ahora se está vinculando con la capacidad del maniquí para tomar decisiones lógicas significativas durante el razonamiento.
Un problema central en la capacitación de modelos de razonamiento que utilizan el formación de refuerzo es tratar todos los tokens de salida por igual. Cuando los modelos se optimizan utilizando el formación de refuerzo con recompensas verificables (RLVR), el proceso de aggiornamento tradicionalmente incluye cada token en la secuencia generada, independientemente de su papel utilitario. Este tratamiento uniforme no distingue a los tokens que conducen a cambios de razonamiento significativos de los que simplemente extienden las estructuras lingüísticas existentes. Como resultado, una gran parte de los posibles de capacitación puede dirigirse a tokens que ofrecen una contribución mínima a las capacidades de razonamiento del maniquí. Sin priorizar los pocos tokens que juegan roles decisivos en la navegación de diferentes rutas lógicas, estos métodos pierden oportunidades para una optimización enfocada y efectiva.
La mayoría de los marcos RLVR, incluida la optimización de políticas proximales (PPO), la optimización de políticas relativas del peña (GRPO) y la optimización de la política de muestreo dinámico (DAPO), funcionan evaluando secuencias completas de panorama de token contra las funciones de galardón que evalúan la corrección. PPO se fundamento en estabilizar las actualizaciones de políticas a través de una función objetivo recortada. GRPO perfeccionamiento esto al estimar los títulos de delantera utilizando respuestas agrupadas, en sitio de una red de valía separada. DAPO introduce mejoras adicionales, como el mecanismo clip más stop y la configuración de galardón demasiado larga. Sin secuestro, estos métodos no tienen en cuenta la entropía a nivel de token ni distinguen la importancia de los tokens individuales en la cautiverio de razonamiento, sino que aplican actualizaciones uniformes de gradiente en todos los ámbitos.
En un intento por refinar cómo el entrenamiento RLVR impacta el razonamiento de LLM, los investigadores de Alibaba Inc. y la Universidad de Tsinghua presentaron una nueva metodología centrada en los patrones de entropía de tokens. Observaron que en las secuencias COT generadas por los modelos QWEN3, un pequeño subconjunto de tokens, aproximadamente el 20%, muestran una entropía significativamente longevo. Estos tokens, etiquetados como «tokens bifurcadores», a menudo corresponden a momentos en los que el maniquí debe atreverse entre múltiples rutas de razonamiento. El 80% restante de los tokens generalmente exhibe pérdida entropía y actúa como extensiones de declaraciones anteriores. Al deslindar las actualizaciones de gradiente de política sólo a estos tokens de entrada entropía, el equipo de investigación no solo pudo amparar sino, en muchos casos, mejorar el rendimiento de los puntos de relato de razonamiento desafiantes.
Para cuantificar la entropía del token, los investigadores utilizaron la fórmula de entropía basada en la distribución de probabilidad sobre posibles opciones de token en cada paso. Descubrieron que más de la medio de todos los tokens generados tenían títulos de entropía por debajo de 0.01, lo que indica un comportamiento casi determinista. Solo el 20% excedió una entropía de 0.672, marcándolos como los centros de toma de decisiones adentro de COTS. Los tokens de entrada entropía a menudo incluyen operadores lógicos y palabras conectivas como «aceptar», «desde entonces» o «así», que introducen nuevas condiciones o transiciones en dialéctica. En contraste, los tokens de pérdida entropía incluyeron símbolos predecibles, sufijos o fragmentos de código. A través de experimentos controlados, quedó claro que la manipulación de la entropía de estos tokens de división influyó directamente en el rendimiento de razonamiento del maniquí, mientras que alterar los tokens de pérdida entropía tuvo poco sensación.
El equipo de investigación realizó extensos experimentos en tres tamaños de maniquí: QWEN3-8B, QWEN3-14B y QWEN3-32B. Al entrenar solo los tokens principales del 20% de entrada entropía, el maniquí QWEN3-32B logró una puntuación de 63.5 en AIME’24 y 56.7 en AIME’25, uno y otro establecieron nuevos puntos de relato de rendimiento para modelos de menos de 600B de parámetros. Encima, el aumento de la largura de respuesta máxima de 20k a 29k elevó el puntaje AIME’24 a 68.1. En comparación, el entrenamiento en el 80% inferior de los tokens de pérdida entropía hizo que el rendimiento cayera significativamente. El maniquí QWEN3-14B mostró ganancias de +4.79 en AIME’25 y +5.21 en AIME’24, mientras que el QWEN3-8B mantuvo resultados competitivos en relación con el entrenamiento completo. Un estudio de separación confirmó aún más la importancia de retener el origen del 20%. La disminución de la fracción al 10% omitió los puntos de intrepidez esenciales, y el aumento del 50% o 100% diluyó el sensación al incluir demasiados tokens de pérdida entropía, reduciendo así la desemejanza de entropía y obstaculizando la exploración.
En esencia, la investigación proporciona una nueva dirección para mejorar las habilidades de razonamiento de los modelos de idiomas identificando y capacitando selectivamente sobre la minoría de tokens que contribuyen desproporcionadamente al éxito del razonamiento. Evita el entrenamiento ineficiente y, en cambio, propone un enfoque escalable que alinee los objetivos de formación de refuerzo con los momentos reales de toma de decisiones en secuencias de tokens. El éxito de esta logística radica en el uso de entropía como conductor para distinguir tokens avíos del relleno.
Varias conclusiones esencia de la investigación incluyen:
- En torno a del 20% de los tokens exhiben una entrada entropía y sirven como puntos de división que dirigen caminos de razonamiento.
- El entrenamiento solo en estos tokens de entrada entropía ofrece un rendimiento igual o mejor que el entrenamiento en el conjunto de token completo.
- QWEN3-32B logró puntajes de 63.5 en AIME’24 y 56.7 en AIME’25, superando a los modelos más grandes entrenados tradicionalmente.
- Extender la largura de la respuesta de 20k a 29k empujó aún más el puntaje AIME’24 a 68.1.
- El entrenamiento en el 80% restante de los tokens de pérdida entropía condujo a una cachas degradación del rendimiento.
- Retener el origen del 20% para los tokens de entrada entropía equilibra de guisa óptima la exploración y el rendimiento.
- Los modelos más grandes ganan más de esta logística adecuado a su capacidad para beneficiarse de una mejor exploración.
- La logística escalera aceptablemente y podría mandar el entrenamiento más eficaz de los modelos de razonamiento de próxima engendramiento.
En conclusión, esta investigación repensa efectivamente la aplicación del formación de refuerzo a los modelos de idiomas al introducir un enfoque en la entropía a nivel de token. Al optimizar solo a la minoría que influye en las rutas de razonamiento, el método perfeccionamiento el rendimiento al tiempo que reduce la sobrecarga computacional. Proporciona una hoja de ruta maña para futuros esfuerzos para mejorar el razonamiento en LLM sin complejidad innecesaria.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este tesina. Encima, siéntete vaco de seguirnos Gorjeo Y no olvides unirte a nuestro 98k+ ml de subreddit y suscribirse a Nuestro boletín.
Nikhil es consejero interno en MarktechPost. Está buscando un doble cargo integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.