Fuentes abiertas de Tencent Hunyuan-A13b: un maniquí MOE de parámetro activo 13B con razonamiento de modo dual y contexto de 256k

El equipo de Hunyuan de Tencent ha introducido Hunyuan-a13buna nueva fuente abierta maniquí de habla excelso construido sobre un escaso Mezcla de expertos (MOE) edificación. Si proporcionadamente el maniquí consta de 80 mil millones de parámetros totales, solo 13 mil millones están activos durante la inferencia, ofreciendo un invariabilidad mucho capaz entre el rendimiento y el costo computacional. Es compatible Atención de consulta agrupada (GQA), 256k largo de contextoy un Entorno de razonamiento de modo dual Eso cambia entre un pensamiento rápido y premioso.

Diseñado para una implementación capaz y un razonamiento robusto, Hunyuan-A13b logra un rendimiento de primer nivel en los puntos de narración de la agente, incluidos Bfcl-v3, τ lado, Cárcel C3y Bobado difícila menudo superan los modelos más grandes en escenarios de llamadas de herramientas y contexto dadivoso.

Casa: MOE escaso con parámetros activos 13B

En esencia, Hunyuan-A13b sigue un diseño MOE de forúnculo fino que comprende 1 hábil compartido y 64 expertos no compartidoscon 8 expertos activados por pase en dirección a delante. Esta edificación, respaldada por experimentos de escalera, garantiza la consistencia del rendimiento y mantiene bajos los costos de inferencia. El maniquí incluye 32 capas, usos Swiglu Las activaciones, un tamaño de vocabulario de 128K, e integra GQA para una longevo eficiencia de memoria durante la inferencia de contexto dadivoso.

La configuración del MOE del maniquí se combina con una optimizada plan de estudios de entrenamiento: Una período previa a la preparación de 20T, seguida de un recocido rápido y una adecuación de contexto dadivoso. Esta última período escalera la ventana de contexto primero a 32k y luego a 256k tokens utilizando una codificación posicional consciente de NTK, asegurando un rendimiento estable a grandes longitudes de secuencia.

Razonamiento de modo dual: pensamiento rápido y premioso

Una característica destacada de Hunyuan-A13b es su sujeción de pensamiento de doble modo (COT) capacidad. Admite tanto una desaparecido latencia de pensamiento rápido modo para consultas de rutina y un más cuidado de pensamiento premioso Modo para razonamiento de varios pasos. Estos modos se controlan a través de un sistema de marbete simple: /no think para inferencia rápida y /think para razonamiento juicioso. Esta flexibilidad permite a los usuarios adaptar el costo computacional a la complejidad de las tareas.

Post-entrenamiento: educación de refuerzo con modelos de retribución específicos de tareas

La tubería posterior al entrenamiento de Hunyuan-A13b incluye Multi-etapas supervisadas (SFT) y Enseñanza de refuerzo (RL) en tareas tanto específicas como de razonamiento. Las etapas RL incorporan Recompensas basadas en resultados y feedback específica de la útilincluidos los entornos de ejecución de Sandbox para el código y las verificaciones basadas en reglas para los agentes.

En la período de entrenamiento de agentes, el equipo sintetizó diversos escenarios de uso de herramientas con roles de planificador, comprobación y herramientas, generando sobre Combinaciones de 20,000 formatos. Este reforzó la capacidad de Hunyuan-A13b para ejecutar flujos de trabajo del mundo actual, como procesamiento de hojas de cálculo, búsqueda de información y razonamiento estructurado.

Evaluación: desempeño de estado de vanguardia

Shows de Hunyuan-A13b Resultados de narración fuertes a través de diversas tareas de PNL:

En MATEMÁTICAS, Cmathy GPQApuntúa en el par o por encima de los modelos más grandes densos y MOE.
Supera QWEN3-A22B y Deepseek r1 en razonamiento deductivo (BBH: 89.1; cebralógica: 84.7).
En la codificación, se mantiene suyo con 83.9 en MBPP y 69.3 en Multipl-E.
Para tareas de agenteconduce a BFCL-V3 (78.3) y Complexfuncbench (61.2)Moral de sus capacidades de uso de herramientas.

La comprensión de contexto dadivoso es otro punto destacado. En Pingüinscrollsobtiene 87.7, solo menos de Gemini 2.5 Pro. En GOBERNANTEmantiene un parada rendimiento (73.9) incluso en Contexto 64K – 128Ksuperando modelos más grandes como QWEN3-A22B y Deepseek R1 en la resiliencia del contexto.

Optimización e implementación de inferencia

Hunyuan-A13b está completamente integrado con marcos de inferencias populares como vllm, Sglangy Tensorrt-llm. Admite formatos de precisión como W16A16, W8A8y KV Cache FP8pegado con características como Almacenamiento en elegancia del prefijo involuntario y Peleje previo. Se logra a 1981.99 tokens/seg Rendimiento en una entrada de 32 lotes (entrada 2048, largo de salida 14336), lo que lo hace práctico para aplicaciones en tiempo actual.

Correo libre y relevancia de la industria

Adecuado en Cara abrazada y GithubHunyuan-A13B se asta con licencias permisivas de código libre. Está diseñado para una investigación capaz y uso de producción, especialmente en entornos sensibles a la latencia y tareas de contexto a dadivoso plazo.

Al combinar Escalabilidad moe, razonamiento agentey accesibilidad de código libreHunyuan-A13b de Tencent ofrece una alternativa convincente a los LLM de peso pesado, lo que permite una experimentación y despliegue más amplios sin inmolar la capacidad.

Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este tesina. Adicionalmente, siéntete huido de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como patrón e ingeniero iluminado, ASIF se compromete a disfrutar el potencial de la inteligencia fabricado para el proporcionadamente social. Su esfuerzo más nuevo es el impulso de una plataforma de medios de inteligencia fabricado, MarktechPost, que se destaca por su cobertura profunda de telediario de educación involuntario y de educación profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el conocido.

Etiquetado 13B, 256k, abiertas, activo, con, contexto, dual, fuentes, HunyuanA13b, modelo, modo, MoE, parámetro, razonamiento, Tencent