Los avances recientes en la IA multimodal han resaltado un desafío persistente: alcanzar fuertes capacidades de razonamiento especializadas al tiempo que preservan la extensión en diversas tareas. Los modelos de «pensamiento gradual» como OpenAI-O1 y Gemini-Thinking han liberal en el razonamiento analítico deliberado, pero a menudo exhiben un rendimiento comprometido en las tareas generales de comprensión visual, con mayores tendencias en dirección a las alucinaciones visuales. A medida que el campo progresa en dirección a la construcción de sistemas de IA de uso común, reconciliar esta compensación sigue siendo un problema de investigación crítico.
Skywork Ai presenta Skywork R1V2
SkyWork AI ha arrojado SkyWork R1V2, un maniquí de razonamiento multimodal de próxima coexistentes diseñado para atracar el compensación de generería de razonamiento sistemáticamente. Sobre la almohadilla de la almohadilla de Skywork R1V, R1V2 introduce un situación de enseñanza de refuerzo híbrido, combinando la breviario del maniquí de remuneración con señales estructuradas basadas en reglas. El maniquí evita la dependencia convencional de la destilación de maestros alumnos al memorizar directamente de las interacciones multimodales, ofreciendo un avance campechano y reproducible a través de su emancipación en la cara abrazada.
Enfoque técnico e innovaciones
Skywork R1V2 incorpora la optimización de políticas relativas del peña (GRPO) adyacente con un búfer de muestra selectivo (SSB) para mejorar la estabilidad y la eficiencia del entrenamiento. GRPO permite la evaluación relativa entre las respuestas candidatas en el interior del mismo peña de consultas, pero los problemas de convergencia pueden disminuir las señales de enseñanza efectivas. El mecanismo SSB aborda esto al perdurar un distinción de muestras informativas, asegurando el comunicación continuo a gradientes de suspensión valencia.
Adicionalmente, el maniquí adopta una táctica de optimización de preferencias mixtas (MPO), integrando las preferencias basadas en el maniquí de remuneración con restricciones basadas en reglas. Esta optimización híbrida permite que SkyWork R1V2 fortalezca la calidad del razonamiento paso a paso al tiempo que mantiene la consistencia en las tareas de percepción común. Un enfoque de entrenamiento modular, que utiliza adaptadores livianos entre un codificador de visión interno congelado de VIT-6B y un maniquí de estilo previamente pretrados, preserva las capacidades de razonamiento del maniquí de estilo al tiempo que optimiza la vinculación intermodal de forma valioso.
Resultados y observación empíricos
Skywork R1V2 demuestra un rendimiento robusto en una abanico de razonamiento y puntos de relato multimodales. En las tareas de razonamiento de texto, el maniquí logra 78.9% en AIME2024, 63.6% en LivecodeBench, 73.2% en LiveBench, 82.9% en Ifeval y 66.3% en BFCL. Estos resultados representan mejoras significativas sobre SkyWork R1V1 y son competitivos con modelos sustancialmente más grandes, como Deepseek R1 (parámetros 671B).
En la evaluación multimodal, R1V2 logra 73.6% en MMMU, 74.0% en Mathvista, 62.6% en Olympiadbench, 49.0% en MathVision y 52.0% en MMMU-Pro. El maniquí supera constantemente las líneas de almohadilla de código campechano de tamaño comparable o longevo, incluidos QWEN2.5-VL-72B y QVQ-Preview-72B, particularmente sobresaliendo en tareas que requieren resolución estructurada de problemas a través de entradas visuales y textuales.
En comparación con los modelos propietarios, R1v2 demuestra brechas de rendimiento estrechas. Supora el flash Claude 3.5 Sonnet y Gemini 2 en puntos de relato multimodales críticos como MMMU y Mathvista. Es importante destacar que las tasas de irrealidad se redujeron sustancialmente al 8,7% a través de estrategias de refuerzo calibradas, manteniendo la integridad objetiva adyacente con el razonamiento enrevesado.
Las evaluaciones cualitativas ilustran aún más el enfoque sistemático de resolución de problemas de R1V2, con el maniquí que demuestra comportamientos metódicos de descomposición y demostración en tareas científicas y matemáticas complejas, reforzando su vinculación con patrones cognitivos reflexivos.
Conclusión
Skywork R1V2 avanza el estado de razonamiento multimodal a través de un situación de enseñanza de refuerzo híbrido cuidadosamente diseñado. Al atracar el problema de las ventajas de desaparición con el búfer de muestra selectiva y el consistencia de las señales de optimización a través de la optimización de preferencias mixtas, el maniquí logra mejoras notables en tareas de razonamiento especializadas y comprensión multimodal común.
Con actuaciones líderes de relato como el 62.6% en Olympiadbench y 73.6% en MMMU, Skywork R1V2 establece una cachas camino de almohadilla de código campechano. Sus principios de diseño y metodología de capacitación ofrecen un enfoque pragmático para desarrollar sistemas de IA multimodales robustos y eficientes. Las instrucciones futuras para Skywork AI incluyen mejorar las capacidades generales de comprensión visual al tiempo que preservan los fundamentos de razonamiento sofisticados establecidos por R1V2.
Mira el Papel y Maniquí en Huggingface. Adicionalmente, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRrepartir. No olvides unirte a nuestro 90k+ ml de subreddit.
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble división en IIT Madras, le apasiona aplicar tecnología e IA para atracar los desafíos del mundo existente. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida existente.