Athrun Data Intelligence


Los modelos de idioma egregio (LLM) han rematado avances significativos en el procesamiento del idioma natural, sobresaliendo en tareas como comprensión, gestación y razonamiento. Sin incautación, persisten desafíos. Obtener un razonamiento sólido a menudo requiere amplios ajustes supervisados, lo que limita la escalabilidad y la extensión. Encima, persisten problemas como la mala legibilidad y el consistencia de la eficiencia computacional con la complejidad del razonamiento, lo que lleva a los investigadores a explorar nuevos enfoques.

DeepSeek-R1: un nuevo enfoque para el razonamiento LLM

DeepSeek-AIEl trabajo fresco presenta DeepSeek-R1un maniquí diseñado para mejorar las capacidades de razonamiento mediante el educación por refuerzo (RL). Este esfuerzo dio como resultado dos modelos:

  • DeepSeek-R1-Zeroque se entrena sólo con RL y demuestra comportamientos de razonamiento emergentes, como el razonamiento de esclavitud de pensamiento (CoT) larga.
  • DeepSeek-R1que se base en su predecesor al incorporar un proceso de capacitación de varias etapas, que aborda desafíos como la legibilidad y la combinación de idiomas mientras mantiene un stop rendimiento de razonamiento.

Estos modelos tienen como objetivo exceder las limitaciones existentes, combinando técnicas innovadoras de RL con procesos de capacitación estructurados para conseguir escalabilidad y usabilidad.

Innovaciones técnicas y beneficios

1. Enseñanza por refuerzo en tareas de razonamiento: DeepSeek-R1-Zero emplea RL sin acatar de datos supervisados. Al utilizar la optimización de políticas relativas al congregación (GRPO), optimiza el razonamiento mediante la evaluación de múltiples resultados, lo que perfeccionamiento significativamente el rendimiento de las pruebas comparativas. Por ejemplo, su puntuación AIME 2024 pass@1 aumentó del 15,6 % al 71,0 % durante el entrenamiento.

2. Entrenamiento en varias etapas en DeepSeek-R1: DeepSeek-R1 incorpora datos de comienzo en frío (miles de ejemplos CoT seleccionados) para ajustar su maniquí colchoneta antaño de someterse a RL centrado en el razonamiento. Este proceso garantiza que los resultados sean coherentes y fáciles de usar al incorporar recompensas por la coherencia del idioma.

3. Destilación para modelos más pequeños: Para atracar las limitaciones computacionales, DeepSeek-AI destiló seis modelos más pequeños (de 1,5 mil millones a 70 mil millones de parámetros) de DeepSeek-R1 utilizando arquitecturas Qwen y Candela. Estos modelos conservan sólidas capacidades de razonamiento, y el maniquí destilado 14B logró una puntuación de admitido@1 del 69,7 % en AIME 2024, superando a algunos modelos más grandes.

Resultados: Información sobre el rendimiento

El rendimiento de DeepSeek-R1 está respaldado por resultados de pruebas comparativas:

  • Puntos de narración de razonamiento:
    • AIME 2024: 79,8% pass@1, superando el o1-mini de OpenAI.
    • MATH-500: 97,3 % admitido@1, comparable a OpenAI-o1-1217.
    • GPQA Diamante: 71,5 % admitido@1, sobresaliendo en razonamiento basado en hechos.
  • Tareas de codificación y STEM:
    • Calificación Elo de Codeforces: 2029, superando al 96,3% de los participantes humanos.
    • SWE-Bench Verified: tasa de resolución del 49,2%, competitiva con otros modelos líderes.
  • Capacidades generales:
    • Se demostró una esforzado extensión en los puntos de narración ArenaHard y AlpacaEval 2.0, logrando tasas de vencimiento del 92,3% y 87,6%, respectivamente.

Aspectos destacados del maniquí destilado: Los modelos más pequeños como DeepSeek-R1-Distill-Qwen-32B muestran un rendimiento sólido, con una puntuación pass@1 del 72,6 % en AIME 2024, lo que demuestra una escalabilidad y practicidad efectivas.

Conclusión: refinar el razonamiento en IA

DeepSeek-R1 y DeepSeek-R1-Zero de DeepSeek-AI representan avances significativos en las capacidades de razonamiento para los LLM. Al rendir RL, datos de comienzo en frío y técnicas de destilación, estos modelos abordan limitaciones críticas al tiempo que promueven la accesibilidad a través de la disponibilidad de código rajado bajo la atrevimiento MIT. La API (‘model=deepseek-reasoner’) perfeccionamiento aún más la usabilidad para desarrolladores e investigadores.

De cara al futuro, DeepSeek-AI planea perfeccionar el soporte multilingüe, mejorar las capacidades de ingeniería de software y mejorar la sensibilidad rápida. Estos esfuerzos tienen como objetivo establecer aún más DeepSeek-R1 como una decisión sólida para aplicaciones de IA centradas en el razonamiento. Al integrar paradigmas de capacitación perfectamente pensados, DeepSeek-R1 ilustra cómo la IA puede avanzar para atracar desafíos cada vez más complejos.


Comprobar el Papel, Búsqueda profunda R1 y DeepSeek R1 cero. Todo el crédito por esta investigación va a los investigadores de este plan. Encima, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Gren lo alto. No olvides unirte a nuestro SubReddit de más de 65.000 ml.

🚨 (Repaso recomendada) Nebius AI Studio se expande con modelos de visión, nuevos modelos de idioma, incrustaciones y LoRA (Promovido)


Asif Razzaq es el director ejecutante de Marktechpost Media Inc.. Como patrón e ingeniero iluminado, Asif está comprometido a rendir el potencial de la inteligencia sintético para el perfectamente social. Su esfuerzo más fresco es el tirada de una plataforma de medios de inteligencia sintético, Marktechpost, que se destaca por su cobertura en profundidad del educación espontáneo y las noticiero sobre educación profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el divulgado.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *