Athrun Data Intelligence


Los modelos de verbo han hecho avances significativos para tocar las tareas de razonamiento, incluso los enfoques de ajuste finos (SFT) supervisados ​​a pequeña escalera (SFT), como la limusina y el S1, lo que demuestran mejoras notables en las capacidades matemáticas de resolución de problemas. Sin retención, quedan preguntas fundamentales sobre estos avances: ¿estos modelos se generalizan genuinamente más allá de sus datos de capacitación, o simplemente están sobrecargados para los conjuntos de pruebas? La comunidad de investigación enfrenta desafíos para comprender qué capacidades se mejoran a través de SFT a pequeña escalera y qué limitaciones persisten a pesar de estas mejoras. A pesar de un rendimiento impresionante en puntos de remisión populares, existe una comprensión incompleta de las fortalezas y debilidades específicas de estos modelos finos, creando una brecha crítica en el conocimiento sobre sus verdaderas habilidades de razonamiento y limitaciones prácticas.

Se han hecho varios intentos para comprender los mercadería del ajuste supervisado basado en el razonamiento más allá de los simples puntajes de remisión. Los investigadores han cuestionado si SFT simplemente alivio el rendimiento en los tipos de problemas observados anteriormente o genuinamente que los modelos transfieren estrategias de resolución de problemas a nuevos contextos, como la aplicación de técnicas basadas en coordenadas en geometría. Los métodos existentes se centran en factores como la corrección, la largo de la decisión y la riqueza de respuesta, que los estudios iniciales sugieren que juegan un papel significativo en la alivio del maniquí a través de SFT. Sin retención, estos enfoques carecen de la granularidad necesaria para determinar exactamente qué tipos de preguntas previamente insoluble se solucionan luego del ajuste fino, y qué categorías de problemas siguen siendo resistentes a la alivio a pesar del entrenamiento extenso. La comunidad de investigación aún lucha por establecer si las mejoras observadas reflejan un estudios más profundo o simplemente la memorización de las trayectorias de capacitación, destacando la requisito de métodos de disección más sofisticados.

Los investigadores de la Universidad de California, Berkeley y el Instituto Allen para AI proponen un ámbito de disección escalonado para investigar cómo el ajuste supervisado afecta las capacidades de razonamiento en los modelos de idiomas. Este enfoque utiliza el Conjunto de datos AIME24, Preferido por su complejidad y uso generalizado en la investigación de razonamiento, que exhibe una estructura similar a una escalera donde los modelos que resuelven preguntas de nivel superior generalmente tienen éxito en las de nivel inferior. Al clasificar las preguntas en cuatro niveles de dificultad, Practicable, mediano, duro y exh, El estudio examina sistemáticamente los requisitos específicos para avanzar entre niveles. El disección revela que la progresión de claro a medio requiere adoptar un estilo de razonamiento R1 con un contexto de inferencia derrochador, mientras que las preguntas de nivel duro exigen una longevo estabilidad computacional durante la exploración profunda. Las preguntas de nivel de exH presentan un desafío fundamentalmente diferente, que requiere estrategias de resolución de problemas poco convencionales con las que los modelos actuales luchan uniformemente. La investigación incluso identifica cuatro ideas esencia: la brecha de rendimiento entre el potencial y la estabilidad en los modelos SFT a pequeña escalera, los beneficios mínimos de la curación cuidadosa del conjunto de datos, los rendimientos disminuidos de la escalera de datos SFT y las posibles barreras de inteligencia que pueden no superarse solo a través de SFT.

La metodología emplea un disección escalonado integral utilizando el conjunto de datos AIME24 como el punto de remisión de prueba principal. Esta alternativa se deriva de tres atributos esencia: la dificultad jerárquica del conjunto de datos que desafía incluso a los modelos de última vivientes, su cobertura diversa de dominios matemáticos y su enfoque en las matemáticas de secundaria que aísla la capacidad de razonamiento puro del conocimiento específico del dominio. QWEN2.5-32 B-Instructo sirve como maniquí colchoneta conveniente a su acogida generalizada y comportamientos cognitivos inherentes, incluida la comprobación, el retroceso y la configuración de la subgono. Los datos de ajuste fino consisten en pares de respuesta a preguntas del conjunto de datos OpenR1-MATH-220K, específicamente utilizando trayectorias COT generadas por Deepseek R1 para problemas de Numinamath1.5, con soluciones incorrectas filtradas. La configuración de entrenamiento refleja estudios previos con una tasa de estudios de 1 × 10−5, descomposición de peso de 1 × 10-4, tamaño por lotes de 32 y 5 épocas. La evaluación del rendimiento emplea a AVG@N (tasa de aprobación promedio en múltiples intentos) y métricas cov@n, con preguntas categorizadas en cuatro niveles de dificultad (claro, mediano, duro y extremadamente duro) según los patrones de rendimiento del maniquí.

Los resultados de la investigación revelan que la progresión efectiva de la resolución de problemas matemáticos de nivel claro a mediano requiere condiciones mínimas pero específicas. El estudio examinó sistemáticamente múltiples variables de capacitación, incluidos el conocimiento fundamental en diversas categorías matemáticas, variaciones de tamaño del conjunto de datos (100-1000 ejemplos por categoría), largo de trayectoria (corta, frecuente o larga) y estilo de trayectoria (comparando Deepseek-R1 con Gemini-Flash). A través de estudios integrales de extirpación, los investigadores aislaron el impacto de cada dimensión en el rendimiento del maniquí, representada como p = F (c, n, l, s), donde C representa la categoría, N representa el número de trayectorias, L representa la largo y S representa el estilo. Los resultados demuestran que alcanzar el rendimiento ≥90% en preguntas de nivel medio requiere al menos 500 trayectorias normales o largas de estilo R1, independientemente de la categoría matemática específica. Los modelos no cumplen constantemente en cumplir con los umbrales de rendimiento cuando se entrenan con menos trayectorias, trayectorias más cortas o trayectorias de estilo Géminis. Esto indica que la largo y la cantidad de la trayectoria del razonamiento representan factores críticos en el expansión de capacidades de razonamiento matemático, mientras que el tema específico de las trayectorias resulta menos importante que sus características estructurales.

La investigación demuestra que los modelos con ajuste fino supervisado a pequeña escalera pueden resolver tantas preguntas como modelos más sofisticados como Deepseek-R1, aunque quedan desafíos significativos. La traba principal identificada es la inestabilidad en el razonamiento matemático, en superficie de la capacidad. Los resultados experimentales muestran que los modelos entrenados en geometría pueden alcanzar una puntuación de cobertura de 90, coincidiendo con el rendimiento de R1 cuando se les dan múltiples intentos, sin retención, su precisión genérico se retrasa en más del 20%. Esta brecha de rendimiento se deriva principalmente de la inestabilidad en la exploración profunda y las limitaciones computacionales durante la resolución de problemas complejos. Si adecuadamente el aumento del tamaño del conjunto de datos SFT ofrece una ruta de decisión, la alivio del rendimiento sigue una tendencia de escalera logarítmica con rendimientos decrecientes. En particular, el estudio desafía las afirmaciones recientes sobre la importancia de una cuidadosa curación del conjunto de datos, revelando que el rendimiento en varias categorías matemáticas sigue siendo consistente adentro de un rango angosto de 55 ± 4%, con solo diferencias marginales entre conjuntos de datos similares específicamente construidos y los construidos aleatoriamente. Esta conclusión sugiere que la cantidad y calidad de las trayectorias de razonamiento importan más que contenido específico de la materia para desarrollar capacidades de razonamiento matemático robustos.


Aquí está el Papel y Página de Github. Por otra parte, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRdistribuir. No olvides unirte a nuestro 90k+ ml de subreddit.

🔥 (Regístrese ahora) Conferencia aparente de Minicon sobre AI de Agente: Registro tirado + Certificado de Donación + Evento corto de 4 horas (21 de mayo, 9 am- 1 PM PST) + Hands on Workshop


Asjad es asesor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de estudios obligatorio y estudios profundo que siempre está investigando las aplicaciones del estudios obligatorio en la atención médica.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *