En los últimos primaveras se han acabado avances significativos en la investigación y restablecimiento de las capacidades de razonamiento de grandes modelos de jerigonzacon un resistente enfoque en mejorar su competencia para resolver
Problemas aritméticos y matemáticos.
Un maniquí con buen razonamiento aritmético y matemático puede ayudar en:
- Estudios personalizado: Los tutores con tecnología de inteligencia industrial pueden adaptarse a las micción individuales de los estudiantes, ayudándolos a comprender conceptos matemáticos complejos de modo más efectiva.
- Colaboración para la resolución de problemas: La automatización de explicaciones paso a paso para la resolución de problemas restablecimiento la billete y la comprensión de los estudiantes.
- Diseño curricular: Creación de módulos de formación adaptativos y progresivos en materias como álgebra y cálculo.
Este artículo explora cómo los avances en el razonamiento matemático están impulsando innovaciones en modelos de IA como Qwen2.5-Math y sus aplicaciones en el formación personalizado, la resolución de problemas y el diseño curricular.
Objetivos de formación
- Comprender y explorar la serie Qwen2.5-Math y sus componentes.
- Obtenga más información sobre la cimentación del maniquí Qwen2.5-Math.
- Obtenga exposición actos sobre Qwen2.5-Math con ejemplos.
- Conozca el rendimiento de Qwen2.5-Math en varios puntos de remisión.
¿Qué es Qwen2.5-Math?
La serie Qwen2.5-Math es la última incorporación a Alibaba Cloud Qwen serie de programas de código destapado, específicos de matemáticas grandes modelos de jerigonza. Sigue al dispersión previo de Qwen2-Math, una serie de modelos de jerigonza matemático especializados basados en los LLM de Qwen2. Estos modelos demuestran capacidades matemáticas superiores, superando tanto las alternativas de código destapado como incluso algunos modelos de código cerrado como GPT-4o.
Esta serie demuestra mejoras significativas en el rendimiento con respecto a la serie Qwen2-Math en los puntos de remisión de matemáticas en chino e inglés. Si correctamente esta serie aplica Chain-of-Thought (CoT) para resolver problemas matemáticos específicos en inglés solamente, la serie Qwen2.5-Math amplía sus capacidades al incorporar CoT y Tool-Integrated Reasoning (TIR), para chocar problemas matemáticos en entreambos. Chino e inglés de modo efectiva.
Qwen2.5-Math y Qwen2-Math
La comparación entre Qwen2.5-Math y Qwen2-Math destaca los avances en el razonamiento matemático y las capacidades de resolución de problemas logrados en la última traducción de los modelos de jerigonza específicos de matemáticas de Alibaba Cloud.
| Propiedad | Qwen2-Matemáticas | Qwen2.5-Matemáticas |
|---|---|---|
| Tamaño de los datos previos al entrenamiento | 700B tokens (de Qwen Math Corpus v1) | Más de 1T de tokens (de Qwen Math Corpus v2) |
| Idiomas admitidos | Inglés | inglés y chino |
| Acercarse | Prisión de pensamiento (COT) | Prisión de pensamiento (COT), razonamiento integrado en herramientas (TIR) |
| Puntuación de remisión (GSM8K, Matemáticas y MMLU-STEM) | 89,1, 60,5, 79,1 | 90,8, 66,8, 82,8 |
| Variantes de maniquí | Qwen2-Matemáticas-1.5B/7B/72B | Qwen2.5-Matemáticas-1.5B/7B/72B |
Optimización de datos de entrenamiento
La serie Qwen2.5-Math se entrena utilizando Qwen Math Corpus v2, que comprende más de 1 billón de tokens de datos matemáticos de reincorporación calidad tanto en inglés como en chino. Este conjunto de datos incluye datos matemáticos sintéticos generados utilizando el maniquí Qwen2-Math-72B-Instruct y datos matemáticos chinos agregados obtenidos de contenido web, libros y repositorios de códigos a través de múltiples ciclos de recuperación.
Conjunto de datos de sujeción de pensamiento (CoT)
El conjunto de datos de sujeción de pensamiento (CoT) para Qwen2.5-Math es una colección completa de problemas matemáticos destinados a mejorar las capacidades de razonamiento del maniquí. Incluye:
- 580.000 problemas en inglés y 500.000 matemáticos, incluidos rudimentos anotados y sintetizados.
- Los datos anotados se derivan de fuentes como GSM8K, MATH y NuminaMath.
Conjunto de datos de razonamiento integrado en herramientas (TIR)
Para chocar los desafíos computacionales y algorítmicos que enfrentan las indicaciones de CoT, como resolver ecuaciones cuadráticas o calcular títulos propios, se introdujo el conjunto de datos de razonamiento integrado en herramientas (TIR). Este conjunto de datos restablecimiento la competencia del maniquí en manipulación simbólica y cálculos precisos al permitirle utilizar un intérprete de Python para tareas de razonamiento. Incluye:
- 190.000 problemas de puntos de remisión como GSM8K, MATH, CollegeMath y NuminaMath.
- Problemas de 205k creados utilizando técnicas de MuggleMath y DotaMath para desarrollar consultas internamente de conjuntos de entrenamiento GSM8K y MATH.
Entrenamiento de modelos eficientes
Cubo que el maniquí Qwen2.5-Math es la traducción mejorada del maniquí Qwen2-Math, su entrenamiento se deriva de Qwen2-Math de la ulterior modo:
- Los modelos Qwen2-Math se entrenan en Qwen Math Corpus v1, un conjunto de datos de reincorporación calidad que contiene aproximadamente 700 mil millones de tokens de contenido matemático.
- Los desarrolladores entrenan un maniquí de premio específico para matemáticas, Qwen2-Math-RM, derivado del maniquí Qwen2-Math-72B.
- Los modelos básicos de la serie Qwen2.5 sirven para la inicialización de parámetros, mejorando la comprensión del jerigonza, la gestación de código y las capacidades de razonamiento de texto.
- Luego de entrenar el maniquí pulvínulo Qwen2.5-Math, los desarrolladores entrenan un maniquí de premio específico para matemáticas, Qwen2.5-Math-RM-72B, basado en Qwen2.5-Math-72B. Este maniquí de premio evoluciona los datos SFT a través de Rejection Sampling para el maniquí SFT (Qwen2.5-Math-SFT).
- Al final se construye un maniquí de instrucción (Qwen2.5-Math-Instruct) para pulir la calidad de las respuestas. Este maniquí se crea mediante una iteración adicional utilizando los modelos Qwen2-Math-Instruct y Qwen2.5-Math-RM-72B. El proceso incorpora datos de razonamiento integrado en herramientas (TIR) y datos SFT, refinados mediante optimización de políticas relativas al categoría (GRPO), para pulir aún más el rendimiento del maniquí.
Optimización del rendimiento del maniquí
Mejorar el rendimiento del maniquí es esencia para ofrecer resultados más rápidos y precisos, garantizando eficiencia y confiabilidad en las aplicaciones.
Rendimiento de los modelos básicos
Los modelos pulvínulo Qwen2.5-Math-1.5B/7B/72B lograron mejoras significativas en los puntos de remisión de matemáticas en inglés (GSM8K, Matemáticasy MMLU-STEM) y puntos de remisión de matemáticas chinos (CMATH, GaoKao Math Cloze y GaoKao Math QA) en comparación con Qwen2-Math-1.5B/7B/72B.

Por ejemplo, los modelos Qwen2.5-Math-1.5B/7B/72B muestran una restablecimiento significativa de 5,4, 5,0, 6,3 en MATEMÁTICAS y una restablecimiento en la puntuación de 3,4, 12,2, 19,8 en GaoKao Math QA.
Rendimiento de los modelos adaptados a las instrucciones
El maniquí Qwen2.5-Math-72B-Instruct superó tanto a los modelos de código destapado como a los mejores modelos de código cerrado, como GPT-4o y Gemini Math-Specialized 1.5 Pro.

El maniquí Qwen2.5-Math-72B-Instruct supera a su predecesor (el maniquí Qwen2-Math-72B-Instruct) por una media de 4,4 puntos en inglés y 6,1 puntos en chino. Este desempeño marca su posición como el maniquí matemático de código destapado líder adecuado en la presente.
En pruebas de remisión extremadamente desafiantes como AIME 2024 y AMC23, modelos como Claude3 Opus, GPT-4 Turbo y Gemini 1.5 Pro resuelven solo 1 o 2 de 30 problemas. Por el contrario, Qwen2.5-Math-72B-Instruct demuestra un rendimiento trascendental, resolviendo 9 problemas en el modo CoT de decodificación Greedy y 12 problemas en el modo TIR. Encima, con la ayuda del maniquí de premio (RM), Qwen2.5-Math-7B-Instruct logra la impresionante monograma de 21 problemas resueltos, lo que demuestra sus capacidades superiores de resolución de problemas matemáticos.

Ejecutando demostración
Veamos la demostración de Qwen2.5-Math usando el espacio HuggingFace aquí.
Este espacio proporciona una interfaz de heredero basada en web para ingresar problemas matemáticos o aritméticos en formato de imagen o texto para probar las capacidades del maniquí.
Para consentir multimodalidades, este espacio utiliza Qwen2-VL para OCR y Qwen2.5-Math para razonamiento matemático.
Qwen-VL (Qwen Large Vision Language Model) es el maniquí de jerigonza de visión multimodal que admite imágenes y texto como entradas. Lógicamente, admite inglés y chino para realizar diversas tareas de gestación de imagen a texto, como subtítulos de imágenes, respuesta visual a preguntas, razonamiento visual, gratitud de texto, etc.
La serie Qwen-VL contiene muchos modelos como Qwen-VL, Qwen-VL-Chat, Qwen-VL-Plus, Qwen-VL-Max
etc. Qwen-VL-Max es el maniquí de jerigonza visual excelso más capaz de Qwen para ofrecer un rendimiento inmejorable en una viso aún más amplia de tareas complejas.
El sistema utiliza el maniquí qwen-vl-max-0809 para comprender, procesar y extraer información textual de las imágenes de entrada. La función Process_Image() primero recibe la imagen de entrada y extrae el contenido relacionado con las matemáticas, asegurando una transcripción precisa de cualquier fórmula LaTeX. Luego, el sistema aplica el ulterior mensaje normalizado para extraer el contenido textual relacionado con las matemáticas de la imagen.
El mensaje indica: “Describe el contenido relacionado con las matemáticas en esta imagen, asegurando una transcripción precisa de cualquier fórmula LaTeX. No describas detalles no matemáticos”.
import os
os.system('pip install dashscope -U')
import tempfile
from pathlib import Path
import secrets
import dashscope
from dashscope import MultiModalConversation, Generation
from PIL import Image
YOUR_API_TOKEN = os.getenv('YOUR_API_TOKEN')
dashscope.api_key = YOUR_API_TOKEN
math_messages = ()
def process_image(image, shouldConvert=False):
entero math_messages
math_messages = () # reset when upload image
uploaded_file_dir = os.environ.get("GRADIO_TEMP_DIR") or str(
Path(tempfile.gettempdir()) / "gradio"
)
os.makedirs(uploaded_file_dir, exist_ok=True)
name = f"tmp{secrets.token_hex(20)}.jpg"
filename = os.path.join(uploaded_file_dir, name)
if shouldConvert:
new_img = Image.new('RGB', size=(image.width, image.height), color=(255, 255, 255))
new_img.paste(image, (0, 0), mask=image)
image = new_img
image.save(filename)
messages = ({
'role': 'system',
'content': ({'text': 'You are a helpful assistant.'})
}, {
'role': 'user',
'content': (
{'image': f'file://{filename}'},
{'text': 'Please describe the math-related content in this image, ensuring that any LaTeX formulas are correctly transcribed. Non-mathematical details do not need to be described.'}
)
})
response = MultiModalConversation.call(model="qwen-vl-max-0809", messages=messages)
os.remove(filename)
return response.output.choices(0)("message")("content")#import csv
Paso 2: razonamiento matemático usando Qwen2.5-Math
Este paso extrae la descripción de la imagen, que luego se pasa al maniquí Qwen2.5 adjunto con la pregunta del heredero para ocasionar la respuesta. El maniquí qwen2.5-math-72b-instruct realiza el razonamiento matemático en este proceso.
def get_math_response(image_description, user_question):
entero math_messages
if not math_messages:
math_messages.append({'role': 'system', 'content': 'You are a helpful math assistant.'})
math_messages = math_messages(:1)
if image_description is not None:
content = f'Image description: {image_description}nn'
else:
content=""
query = f"{content}User question: {user_question}"
math_messages.append({'role': 'user', 'content': query})
response = Generation.call(
model="qwen2.5-math-72b-instruct",
messages=math_messages,
result_format="message",
stream=True
)
answer = None
for resp in response:
if resp.output is None:
continue
answer = resp.output.choices(0).message.content
yield answer.replace("", "\")
print(f'query: {query}nanswer: {answer}')
if answer is None:
math_messages.pop()
else:
math_messages.append({'role': 'assistant', 'content': answer})
Habiendo conocido los modelos utilizados en este espacio, veamos algunos ejemplos para
evaluar la capacidad del maniquí para resolver problemas matemáticos o aritméticos.
Ejemplo1
Una imagen de entrada que contiene el ulterior planteamiento del problema:

El maniquí encuentra los títulos de x como 5 e y como 2. Además proporciona instrucciones paso a paso.
Razonamiento en jerigonza natural mientras encuentra los títulos de x e y.
Ejemplo2
Una imagen de entrada que contiene el ulterior planteamiento del problema:

El maniquí descubre que el valencia de la última expresión es 50.
Ejemplo3
Una imagen de entrada que contiene el ulterior planteamiento del problema:

El maniquí descubre que el valencia de la expresión previo es 5.
Conclusión
En este artículo, exploramos Qwen2.5-Math, una serie de modelos matemáticos con sólidas capacidades de razonamiento. Examinamos sus componentes, datos de entrenamiento, cimentación y rendimiento en varios puntos de remisión normalizado. Encima, revisamos la demostración y la probamos con una variedad de ejemplos de moderados a complejos.
Conclusiones esencia
- Los modelos Qwen2.5-Math admiten chino e inglés y muestran capacidades avanzadas de razonamiento matemático. Utiliza técnicas como la sujeción de pensamiento (CoT) y el razonamiento integrado en herramientas (TIR).
- La serie Qwen2.5 incluye múltiples variantes según la cantidad de parámetros, con modelos disponibles en parámetros 1.5B, 7B y 72B.
- Los modelos Qwen2.5-Math aprovechan 1 billón de tokens para el entrenamiento previo, un aumento sustancial en comparación con los 700 mil millones de tokens utilizados para Qwen2-Math.
- Qwen2.5-Math supera a Qwen2-Math en varios puntos de remisión en inglés y chino. Encima, supera a modelos como Claude3 Opus, GPT-4 Turbo y Gemini 1.5 Pro en puntos de remisión desafiantes como AIME 2024.
Preguntas frecuentes
R. Qwen2.5-Math es una traducción mejorada de Qwen2-Math que ofrece rendimiento mejorado, longevo precisión en la resolución de problemas matemáticos complejos y técnicas de entrenamiento mejoradas.
R. Qwen2.5-Math normalmente supera a Qwen2-Math en tareas complejas correcto a su capacitación descubierta y capacidades refinadas en razonamiento matemático.
R. Entreambos modelos están diseñados para el razonamiento matemático, pero Qwen2.5 utiliza algoritmos y datos de entrenamiento más sofisticados para resolver problemas desafiantes de modo más efectiva.
R. Qwen2.5-Math se beneficia de un conjunto de datos más excelso y diverso, lo que restablecimiento su capacidad para difundir y resolver problemas matemáticos complejos con longevo precisión que Qwen2-Math.
R. Qwen2.5 optimiza un procesamiento más rápido y proporciona respuestas más rápidas en comparación con Qwen2-Math manteniendo una reincorporación precisión.
Los medios que se muestran en este artículo no son propiedad de Analytics Vidhya y se utilizan a discreción del autor.