Athrun Data Intelligence


Los modelos de idiomas grandes (LLM) han mostrado avances notables en las capacidades de razonamiento para resolver tareas complejas. Mientras que modelos como Openi’s O1 y Deepseek’s R1 han mejorado significativamente los puntos de narración de razonamiento desafiantes, como las matemáticas de competencia, la codificación competitiva y el GPQA, las limitaciones críticas siguen siendo evaluando su serio potencial de razonamiento. Los conjuntos de datos de razonamiento coetáneo se centran en las tareas de resolución de problemas, pero no abarcan los dominios que requieren un razonamiento descubierto. Encima, estos conjuntos de datos sufren de variedad limitada tanto en la escalera como en los niveles de dificultad, lo que hace que sea difícil evaluar y mejorar las capacidades de razonamiento de los LLM en diferentes dominios y niveles de complejidad.

Los intentos anteriores de mejorar las capacidades de razonamiento de LLM se centran principalmente en dos enfoques: engendramiento de datos sintéticos y autodenuición sin supervisión. En la engendramiento de datos sintéticos, los métodos STAR y Metamath aumentan los conjuntos de datos existentes con nuevos fundamentos de la esclavitud de pensamiento y variaciones de preguntas. Aún así, dependen en gran medida de conjuntos de datos de reincorporación calidad preexistentes. Si acertadamente los enfoques como OpenMathinstruct-2, Numinamath y Xwin-Math generan nuevos datos a partir de ejemplos de semillas, luchan con la escalera a los dominios novedosos. En la autocuración no supervisada, la mayoría de los métodos se basan en respuestas finales anotadas por humanos o modelos de galardón externos, lo que los hace intensivos en medios y costosos, particularmente para problemas complejos de varios pasos que requieren una evaluación humana de las panorama LLM.

Investigadores de Meta, y la Universidad de Nueva York han propuesto NaturalRasoning, un conjunto de datos integral de 2.8 millones de preguntas de razonamiento extraídas de los corpus de previación. Este conjunto de datos albarca diversos campos, incluidas matemáticas, física, informática y bienes y negocios. A diferencia de los conjuntos de datos sintéticos como Metamathqa y OpenMathInstruct-2, NaturalRasoning representa auténticos problemas de razonamiento del mundo vivo a través de la retractación de los corpus en el prevío. Combina de guisa monopolio las preguntas verificables y abiertas, incluida la prueba del teorema, lo que lo hace valioso para desarrollar algoritmos que mejoren las habilidades de razonamiento de LLMS más allá de las simples tareas de comprobación y permiten la destilación del conocimiento de modelos más fuertes a más débiles.

La validez del método de condición natural se muestra en dos maneras para mejorar las capacidades de razonamiento. Primero, utiliza la destilación del conocimiento y la delicadeza supervisada para ganar tendencias de escalera más pronunciadas que los conjuntos de datos existentes. En segundo oficio, funciona como una fuente para la cuna de datos de semillas específicas del dominio. Para apuntar a los puntos de narración de razonamiento investigador como GPQA, el método muestra 250 preguntas de narración y recupera 1k preguntas descontaminadas similares de la conducta natural utilizando la similitud coseno entre las incrustaciones de preguntas. Estas preguntas se dedican y se agrupan en grupos de 15k. El protocolo de evaluación utiliza pruebas de disparo cero en varios puntos de narración, incluidos Math, GPQA, GPQA-Diamond y MMLUPRO, utilizando una decodificación codiciosa para una medición de rendimiento consistente.

Los resultados de la evaluación muestran que con solo 1,5 millones de ejemplos de capacitación, los modelos entrenados en NaturalRasoning Experform Llama3.1-8b-Instructo, pero otros conjuntos de datos como OpenMathInstruct-2 y WebSinstruct no logran ganar un rendimiento comparable incluso con 2.8 millones de puntos de datos. Mientras que los conjuntos de datos específicos de matemáticas como OpenMathInstruct-2 muestran un rendimiento sólido en los puntos de narración de matemáticas (mejorando de 50.83 a 59.25 en matemáticas), tienen dificultades para difundir, con una precisión de GPQA que se planta aproximadamente del 26-27% y el rendimiento inconsistente de MMLU-PRO. Encima, los conjuntos de datos como WebInstruct muestran rendimientos decrecientes, con GPQA Rendimiento que alcanza un efecto de un efecto del 29.02% con 500k muestras, pero disminuyen a 26.12% a muestras de 2,8 m.

En conclusión, los investigadores introdujeron NaturalRasoning, un conjunto de datos que representa un avance significativo en el exposición de conjuntos de datos de razonamiento integral para LLM. La colección del conjunto de datos de 2.8 millones de preguntas albarca múltiples dominios, incluidas matemáticas, física, informática, bienes y ciencias sociales. Los resultados muestran que el uso del método de desestamación natural para la destilación de conocimiento conduce a mejoras consistentes en el rendimiento de narración de razonamiento a medida que aumenta el tamaño de los datos. Su efectividad se extiende a permitir el autocomplimiento de LLM no supervisado a través de modelos de recompensas externas y técnicas de auto-recompensa, marcando un paso delante para mejorar las capacidades de razonamiento de LLM en diversos dominios.


Confirmar el Papel y Conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este plan. Encima, siéntete expedito de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Repaso de recitación recomendada Liberaciones de investigación de IA: un sistema liberal que integra el sistema de IA del agente y los estándares de cumplimiento de datos para afrontar las preocupaciones legales en los conjuntos de datos de IA


Sajjad Ansari es un pregrado de posterior año de IIT Kharagpur. Como entusiasta de la tecnología, profundiza en las aplicaciones prácticas de la IA con un enfoque en comprender el impacto de las tecnologías de IA y sus implicaciones del mundo vivo. Su objetivo es articular conceptos complejos de IA de guisa clara y accesible.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *