Athrun Data Intelligence


Los modelos de idiomas grandes han transformado cómo las máquinas comprenden y generan texto, especialmente en áreas complejas de resolución de problemas como el razonamiento matemático. Estos sistemas, conocidos como modelos tipo R1, están diseñados para pugnar procesos de pensamiento lentos y deliberados. Su fuerza esencia es manejar tareas complejas que requieren un razonamiento paso a paso en secuencias largas. Estas capacidades los hacen valiosos para aplicaciones como resolver problemas matemáticos a nivel de la Juegos olímpicos o tareas de razonamiento razonable, donde la profundidad y la coherencia del razonamiento son esenciales.

Un desafío importante en la capacitación de estos modelos es el cálculo extenso para el estudios de refuerzo utilizando ventanas de contexto largas. Las tareas que requieren modelos de fuerza deducción de varios pasos para producir largos resultados que consumen más capital y ralentizan el estudios. Encima, no todas las respuestas largas contribuyen de forma significativa a la precisión; Muchos incluyen razonamiento redundante. Estas ineficiencias en la gestación de respuestas y el suspensión uso de GPU hacen que sea difícil progresar efectivamente el entrenamiento, particularmente cuando se trabaja con modelos con 1,5 mil millones de parámetros.

Los intentos anteriores de enfrentarse este problema incluyen modelos como DeepScaler, que utiliza una logística de extensión de largo de contexto escenificada durante el entrenamiento. DeepScaler comienza con una ventana de contexto de 8k y se expande gradualmente a 24k en tres fases de entrenamiento. Aunque este enfoque ayuda a pilotar el maniquí para llevar la batuta cadenas de razonamiento más largas de forma efectivo, aún exige aproximadamente 70,000 horas de GPU A100. DeepScaler reduce eso a 3.800 horas a través de una logística progresiva, pero aún requiere un hardware considerable, incluidas configuraciones con hasta 32 GPU en algunas etapas. Esto muestra que si acertadamente las mejoras son posibles, la opción sigue siendo costosa y compleja.

Los investigadores de Tencent introdujeron un método llamado FastCurl para pasar las ineficiencias de la capacitación tradicional de estudios de refuerzo. Este método presenta una logística basada en el plan de estudios alineada con la expansión de la ventana de contexto. FastCurl divide el conjunto de datos en función de la largo de solicitud de entrada en categorías cortas, largas y combinadas. La capacitación progresa en cuatro etapas, cada una utilizando un conjunto de datos diferente y una configuración de ventana de contexto. Este enfoque asegura que el maniquí aprenda un razonamiento simple antaño de avanzar a pasos de razonamiento más largos y complejos. Los investigadores enfatizan que todo el proceso de entrenamiento se ejecuta en un solo nodo con solo 8 GPU, reduciendo la complejidad de la configuración.

El enfoque implica una segmentación deliberada de datos por largo de entrada, impulsada por la hipótesis de que las indicaciones más largas generalmente conducen a horizontes más largas y más complejas. El maniquí primero aprende a usar las indicaciones cortas debajo de una ventana de 8k. A medida que avanza la capacitación, el maniquí pasa a un conjunto de datos compuesto con una largo de la ventana de 16k, luego al conjunto de datos espacioso con el mismo tamaño de ventana, y finalmente revisa los datos combinados nuevamente. Cada etapa está entrenada para una iteración, y FastCurl requiere aproximadamente de 860 pasos de entrenamiento. Esto es efectivo en comparación con los 1.750 pasos de DeepScaler, lo que representa una reducción del 50% en el tiempo de entrenamiento y el uso de capital mientras se mantiene la efectividad.

En las evaluaciones de rendimiento, FastCurl-1.5b-preview mostró mejoras sobre otros modelos en cinco puntos de remisión. Anotó 88.0 en Math 500, 43.1 en AIME 2024, 74.2 en AMC 2023, 31.6 en Minerva Math y 50.4 en Olympiadbench, con un puntaje promedio de 1 1 puntaje de 57.5. En comparación con DeepScaler-1.5b-previa, que obtuvo un promedio de 57.0, FastCurl funcionó mejor en cuatro de cinco conjuntos de datos. Estos resultados destacan que FastCurl puede pasar a las técnicas existentes al tiempo que consumen significativamente menos capital. El maniquí incluso mostró una mejor propagación, particularmente en conjuntos de datos como AMC 2023 y Minerva Math, lo que indica robustez.

La investigación describe claramente un problema computacional en la capacitación de modelos de razonamiento similar a R1 y ofrece una logística curricular innovadora como opción. El método proporciona un situación de capacitación efectivo y práctico al combinar la segmentación de datos basada en entradas con la expansión del contexto. FastCurl ofrece un rendimiento esforzado utilizando menos pasos y hardware condicionado, lo que demuestra que el diseño de capacitación estratégica puede ser tan poderosa como la escalera computacional sin procesar.


Revisar el Papel. Todo el crédito por esta investigación va a los investigadores de este esquema. Encima, siéntete escapado de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.

🔥 (Regístrese ahora) Conferencia potencial de Minicon sobre código despejado AI: Registro de balde + Certificado de Concurrencia + Evento corto de 3 horas (12 de abril, 9 am- 12 pm PST) + Hands on Workshop (patrocinado)


Nikhil es consejero interno en MarktechPost. Está buscando un doble división integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *