Athrun Data Intelligence


StepFun ha presentado Step-DeepResearch, un agente de investigación profunda de extremo a extremo con parámetros 32B que tiene como objetivo convertir la búsqueda web en flujos de trabajo de investigación reales con razonamiento a derrochador plazo, uso de herramientas e informes estructurados. El maniquí se zócalo en Qwen2.5 32B-Pulvínulo y está capacitado para realizar como un agente único que planifica, explora fuentes, verifica evidencia y escribe informes con citas, manteniendo bajo el costo de inferencia.

De la búsqueda a la investigación profunda

La mayoría de los agentes web existentes están optimizados para puntos de remisión de respuesta a preguntas de múltiples saltos. Intentan hacer coincidir las respuestas reales de las preguntas breves. Esto está más cerca de una recuperación selectiva que de una investigación auténtico. Las tareas de investigación profunda son diferentes. Implican el agradecimiento de intenciones latentes, la toma de decisiones a derrochador plazo, el uso de herramientas en múltiples turnos, el razonamiento estructurado y la demostración de fuentes cruzadas en condiciones de incertidumbre.

Step-DeepResearch reformula esto como una toma de decisiones secuencial sobre un conjunto compacto de capacidades atómicas. El equipo de investigación define 4 capacidades atómicas, planificación y descomposición de tareas, búsqueda de información profunda, consejo y demostración, y concepción de informes profesionales. En circunstancia de orquestar muchos agentes externos, el sistema internaliza este onda en un maniquí único que decide la futuro movimiento en cada paso.

Síntesis de datos sobre capacidades atómicas

Para enseñar estas capacidades atómicas, el equipo de investigación crea canales de datos separados para cada diplomacia. Para la planificación, parten de informes técnicos de entrada calidad, trabajos de pesquisa y documentos de examen financiero. Realizan ingeniería inversa de planes de investigación realistas y árboles de tareas a partir de títulos, resúmenes y estructuras, y luego generan trayectorias que siguen estos planes. Esto expone el maniquí a estructuras de proyectos de derrochador plazo, no sólo a plantillas de preguntas cortas.

Para una búsqueda profunda de información, construyen consultas basadas en gráficos sobre gráficos de conocimiento como Wikidata5m y CN-DBpedia. Muestran subgrafos, los amplían mediante la búsqueda y sintetizan preguntas que requieren un razonamiento de múltiples saltos entre entidades y documentos. Un canal separado utiliza un índice de hipervínculo estilo Wiki para forzar la recuperación de documentos cruzados y la combinación de evidencia. Las preguntas fáciles que un maniquí sólido ya puede resolver con una táctica simple de estilo ReAct se filtran, por lo que la capacitación se centra en problemas de búsqueda difíciles.

Los datos de consejo y demostración se generan a través de bucles de autocorrección y rastros docentes de múltiples agentes. Los agentes docentes extraen afirmaciones, planifican verificaciones, verifican hechos, replanifican si aparecen inconsistencias y solo entonces redactan informes. Las trayectorias resultantes se limpian y se utilizan como supervisión para un único agente estudiante. La concepción de informes se entrena en 2 fases, la parte del entrenamiento para el estilo y la profundidad del dominio utilizando pares de informes de consulta, luego se supervisa el ajuste con restricciones estrictas de formato y coherencia del plan.

Entrenamiento progresivo en Qwen2.5-32B-Pulvínulo

El proceso de capacitación tiene 3 etapas: capacitación intermedia agente, ajuste supervisado y formación de refuerzo. En la etapa 1 del entrenamiento intermedio, el equipo inyecta capacidades atómicas sin herramientas, utilizando una largo de contexto de hasta 32 000 tokens. Los datos cubren ojeada activa, rastros de razonamiento sintético, extracto y consejo. El equipo de investigación muestra ganancias constantes en SimpleQA, TriviaQA y FRAMES a medida que el entrenamiento aumenta hasta aproximadamente 150 mil millones de tokens, con las mayores ganancias en FRAMES, que enfatiza el razonamiento estructurado.

En la etapa 2, el contexto se extiende a 128.000 tokens y se introducen llamadas explícitas a herramientas. El maniquí aprende tareas como respuesta a preguntas basadas en URL, búsqueda web profunda, resúmenes de documentos extensos y razonamiento de diálogos extensos. Esta etapa alinea el maniquí con escenarios de investigación reales donde la búsqueda, la navegación y el examen deben combinarse en una sola trayectoria.

Durante el ajuste fino supervisado, las cuatro capacidades atómicas se componen en búsqueda profunda completa y rastros de investigación profunda. La aseo de datos mantiene trayectorias correctas y cortas en términos de pasos y llamadas a herramientas. El canal inyecta errores controlados en las herramientas seguidos de correcciones para mejorar la solidez y aplica formatos de citas para que los informes se mantengan basados ​​en las fuentes recuperadas.

Luego, el formación por refuerzo optimiza el agente en un entorno de herramientas auténtico. El equipo de investigación crea tareas y listas de demostración mediante síntesis inversa y entrena un árbitro de rúbricas estilo directorio de demostración para catalogar informes según dimensiones detalladas. El diseño de retribución convierte etiquetas de rúbricas ternarias en recompensas binarias asimétricas que capturan tanto objetivos positivos como violaciones. La política se entrena con PPO y un crítico erudito, utilizando una estimación de delantera generalizada con un descuento cercano a cero para que las trayectorias largas no se trunquen.

Edificio de ReAct de agente único y pila de búsqueda

En el momento de la inferencia, Step-DeepResearch se ejecuta como un único agente de estilo ReAct que alterna pensamiento, llamadas a herramientas y observaciones hasta que decide ocasionar un referencia. El conjunto de herramientas incluye búsqueda web por lotes, un administrador de tareas pendientes, comandos de shell y operaciones de archivos. La ejecución se ejecuta en un entorno escaso con persistencia de terminal a través de tmux. Un navegador orientado a la percepción reduce las capturas de páginas redundantes mediante el uso de una distancia de hash perceptual. Las herramientas para el examen de documentos, la transcripción de audio y el examen de imágenes admiten entradas multimodales.

La adquisición de información utiliza 2 posibles relacionados. El equipo de StepFun afirma que su API de búsqueda se zócalo en más de 20 millones de artículos de entrada calidad y 600 índices premium. Luego, el equipo de investigación describe una táctica de indexación de autoridades seleccionada que aísla más de 600 dominios confiables, incluidos sitios gubernamentales, académicos e institucionales. La recuperación opera a nivel de párrafo y utiliza una clasificación consciente de la autoridad, de modo que se prefieren los dominios de entrada confianza cuando la relevancia es similar.

Las herramientas de archivos admiten la estampación basada en parches, por lo que el agente solo puede desempolvar las secciones modificadas de un referencia. Un esquema de almacenamiento con agradecimiento de resúmenes escribe los resultados completos de las herramientas en archivos locales e inyecta solo resúmenes compactos en el contexto. Esto actúa como memoria externa y evita el desbordamiento de contexto para proyectos largos.

Evaluación, Costo y Ataque

Para evaluar el comportamiento de investigación profunda, el equipo presenta ADR-Bench, un punto de remisión chino con 110 tareas abiertas en 9 dominios. 70 tareas cubren dominios generales como educación, ciencia e ingeniería y vida social, evaluadas mediante comparaciones de expertos flanco a flanco. 40 tareas en finanzas y derecho se califican con rúbricas explícitas que siguen restricciones de atomicidad y verificabilidad.

IA a escalera Rúbricas de investigaciónStep-DeepResearch alcanza un 61,42 por ciento de cumplimiento de la rótulo, lo que es comparable a OpenAI-DeepResearch y Gemini-DeepResearch, y claramente por delante de múltiples líneas de saco abiertas y patentadas. En ADR-Bench, las calificaciones de Elo basadas en expertos muestran que el maniquí 32B supera a los modelos abiertos más grandes como MiniMax-M2, GLM-4.6 y DeepSeek-V3.2, y es competitivo con sistemas como Kimi-Researcher y MiniMax-Agent-Pro.

Conclusiones esencia

  • Diseño de capacidad atómica y agente único: Step-DeepResearch es un agente único de parámetros 32B construido sobre Qwen2.-32B-Pulvínulo, internaliza 4 capacidades atómicas, planificación, búsqueda de información profunda, consejo y demostración, y concepción de informes profesionales, en circunstancia de servir de muchos agentes externos.
  • Síntesis de datos específicos para cada diplomacia: El equipo de investigación crea canales de datos separados para la planificación, la búsqueda profunda de información, la consejo y la redacción de informes, utilizando planes de ingeniería inversa a partir de informes reales, consultas basadas en gráficos a través de Wikidata5m y CN-DBpedia, seguimientos de docentes de múltiples agentes y datos de formato de informes estrictos.
  • Entrenamiento en tres etapas con contexto derrochador y RL.: La capacitación utiliza capacitación intermedia, ajuste fino supervisado y formación de refuerzo, con capacitación intermedia de hasta 150 mil millones de tokens en contexto de 32k y luego de 128k, SFT compone trayectorias de investigación profundas y completas, y RL basado en PPO con un árbitro de rúbricas optimiza los informes comparándolos con listas de demostración detalladas.
  • Edificio ReAct con búsqueda seleccionada y memoria externa: En el momento de la inferencia, el maniquí ejecuta un onda ReAct que fogosidad a herramientas para búsqueda web por lotes, tareas pendientes, operaciones de shell y archivos, utiliza una API de búsqueda basada en más de 20 millones de artículos y 600 índices premium próximo con más de 600 dominios confiables, y se zócalo en la estampación de parches y el almacenamiento con agradecimiento de resúmenes para realizar como memoria externa.
  • Calidad competitiva con beocio costo.: En las rúbricas de investigación de IA a escalera, el maniquí alcanza un cumplimiento de la rótulo del 61,42 por ciento y es competitivo con OpenAI-DeepResearch y Gemini-DeepResearch; en ADR Bench logra una tasa de conquista o igualada del 67,1 por ciento frente a líneas de saco sólidas.

Mira el Papel y repositorio. Encima, no dudes en seguirnos en Gorjeo y no olvides unirte a nuestro SubReddit de más de 100.000 ml y suscríbete a nuestro boletín. ¡Esperar! estas en telegrama? Ahora igualmente puedes unirte a nosotros en Telegram.


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *