Athrun Data Intelligence


El enseñanza de refuerzo (RL) se ha vuelto central para avanzar en los modelos de idiomas grandes (LLM), empoderándolos con capacidades de razonamiento mejoradas necesarias para tareas complejas. Sin incautación, la comunidad de investigación enfrenta desafíos considerables en la reproducción de técnicas RL de última procreación conveniente a la divulgación incompleta de los detalles secreto de la capacitación por parte de los principales actores de la industria. Esta opacidad ha restringido el progreso de esfuerzos científicos más amplios e investigación colaborativa.

Los investigadores de Bytedance, la Universidad de Tsinghua y la Universidad de Hong Kong introdujeron recientemente DAPO (Optimización de la política de muestreo dinámico), un sistema de enseñanza de refuerzo a gran escalera de código amplio diseñado para mejorar las habilidades de razonamiento de los modelos de idiomas grandes. El sistema DAPO escudriñamiento cerrar la brecha en la reproducibilidad compartiendo abiertamente todos los detalles algorítmicos, procedimientos de capacitación y conjuntos de datos. Construido sobre el situación de Verl, DAPO incluye códigos de capacitación y un conjunto de datos completamente preparado llamado DAPO-MATH-17K, específicamente diseñado para tareas de razonamiento matemático.

La pulvínulo técnica de DAPO incluye cuatro innovaciones principales destinadas a resolver desafíos secreto en el enseñanza de refuerzo. El primero, «Clip-Highter», aborda el tema del colapso de entropía, una situación en la que los modelos se establecen prematuramente en patrones de exploración limitados. Al regir cuidadosamente la relación de retazo en las actualizaciones de políticas, esta técnica fomenta una anciano pluralidad en los resultados del maniquí. El «muestreo dinámico» contrarresta las ineficiencias en el entrenamiento mediante el filtrado dinámico de muestras en función de su utilidad, asegurando así una señal de gradiente más consistente. La «pérdida de gradiente de política a nivel de token» ofrece un método de cálculo de pérdida refinado, enfatizando los ajustes a nivel de token en puesto de a nivel de muestra para acomodar mejor las longitudes variables de las secuencias de razonamiento. Por extremo, la «conformación de premio demasiado larga» introduce una penalización controlada por respuestas excesivamente largas, guiando suavemente los modelos cerca de un razonamiento conciso y valioso.

En la experimentación experiencia, DAPO ha demostrado mejoras significativas. Las evaluaciones sobre el American Invitational Mathematics Examination (AIME) 2024 Benchmark muestran que los modelos entrenados con DAPO alcanzaron una puntuación de 50 puntos utilizando el maniquí pulvínulo Qwen2.5-32b, mejorando los métodos anteriores como Deepseek-R1-Zero-Qwen-32b, que logró 47 puntos. En particular, DAPO logró esta progreso con aproximadamente la medio de los pasos de capacitación, lo que subraya la eficiencia de los métodos propuestos. Un descomposición sistemático reveló mejoras incrementales de cada técnica introducida, pasando de una raya de pulvínulo de 30 puntos (usando GRPO solo) hasta 50 puntos con la metodología DAPO completa.

Más allá de los resultados cuantitativos, la dinámica de entrenamiento de DAPO proporcionó información sobre los patrones de razonamiento en proceso del maniquí. Inicialmente, los modelos mostraron poco comportamiento ponderado, a menudo procediendo linealmente a través de tareas sin reconsiderar los pasos anteriores. Sin incautación, con el entrenamiento continuo, los modelos exhibieron progresivamente comportamientos más reflexivos, lo que demuestra una forma de autovisión iterativa. Este cambio resalta la capacidad del enseñanza de refuerzo no solo para mejorar las vías de razonamiento existentes sino igualmente para cultivar estrategias cognitivas completamente nuevas a lo generoso del tiempo.

En conclusión, la fuente abierta de DAPO representa una contribución significativa a la comunidad de enseñanza de refuerzo, eliminando las barreras previamente creadas por metodologías inaccesibles. Al documentar claramente y proporcionar acercamiento integral a las técnicas, el conjunto de datos y el código del sistema, esta iniciativa de colaboración invita a más investigaciones e innovación. Los esfuerzos combinados de Bytedance, la Universidad de Tsinghua y la Universidad de Hong Kong muestran el potencial de la investigación transparente y cooperativa para avanzar en la comprensión colectiva y las capacidades prácticas de los sistemas de enseñanza de refuerzo a gran escalera.


Efectuar el Papel y Página del esquema. Todo el crédito por esta investigación va a los investigadores de este esquema. Encima, siéntete independiente de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero fantaseador, ASIF se compromete a beneficiarse el potencial de la inteligencia sintético para el perfectamente social. Su esfuerzo más nuevo es el impulso de una plataforma de medios de inteligencia sintético, MarktechPost, que se destaca por su cobertura profunda de noticiero de enseñanza espontáneo y de enseñanza profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el divulgado.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *