Este artículo proporciona una comparación técnica entre dos modelos de transformador de mezcla de expertos (MOE) recientemente lanzados: el QWEN3 30B-A3B de Alibaba (emprendedor en abril de 2025) y GPT-OSS 20B de OpenAi (emprendedor en agosto de 2025). Uno y otro modelos representan enfoques distintos para el diseño de la edificación MOE, equilibrando la eficiencia computacional con el rendimiento en diferentes escenarios de implementación.
Descripción universal del maniquí
| Característica | QWEN3 30B-A3B | GPT-OSS 20B |
|---|---|---|
| Parámetros totales | 30.5b | 21B |
| Parámetros activos | 3.3b | 3.6b |
| Número de capas | 48 | 24 |
| Expertos de MOE | 128 (8 activo) | 32 (4 activo) |
| Edificio de atención | Atención de consulta agrupada | Atención múltiple agrupada |
| Consulta/cabezales de valía secreto | 32Q / 4KV | 64Q / 8KV |
| Ventana de contexto | 32,768 (ext. 262,144) | 128,000 |
| Tamaño de vocabulario | 151,936 | O200K_Harmony (~ 200k) |
| Cuantificación | Precisión estereotipado | Nativo mxfp4 |
| Término de propagación | Abril de 2025 | Agosto de 2025 |
Fuentes: Documentación oficial de Qwen3, Documentación de OpenAi GPT-OSS
Especificaciones técnicas QWEN3 30B-A3B
Detalles de la edificación
QWEN3 30B-A3B emplea una edificación de transformador profundo con 48 capascada uno que contiene una configuración de la mezcla de expertos con 128 expertos por capa. El maniquí se activa 8 expertos por token Durante la inferencia, conseguir un consistencia entre la especialización y la eficiencia computacional.
Mecanismo de atención
El maniquí utiliza Atención de consulta agrupada (GQA) con 32 cabezas de consulta y 4 cabezas de valía secreto³. Este diseño optimiza el uso de la memoria mientras mantiene la calidad de la atención, particularmente humanitario para el procesamiento de contexto a dilatado plazo.
Contexto y soporte multilingüe
- Largo de contexto nativo: 32,768 fichas
- Contexto extendido: Hasta 262,144 tokens (últimas variantes)
- Soporte multilingüe: 119 idiomas y dialectos
- Vocabulario: 151,936 fichas usando Tokenización de BPE
Características únicas
Qwen3 incorpora un sistema de razonamiento híbrido Admitiendo modos de «pensamiento» y «no pensado», lo que permite a los usuarios controlar la sobrecarga computacional en función de la complejidad de la tarea.
Especificaciones técnicas GPT-OSS 20B
Detalles de la edificación
GPT-OSS 20B presenta un Transformador de 24 capas con 32 expertos en MOE por capa⁸. El maniquí se activa 4 expertos por tokenenfatizando una capacidad de entendido más amplia sobre la especialización de ántrax fino.
Mecanismo de atención
El maniquí implementa Atención múltiple agrupada con 64 cabezales de consulta y 8 cabezas de valía secreto dispuestas en grupos de 8¹⁰. Esta configuración admite una inferencia válido mientras mantiene la calidad de la atención en la edificación más amplia.
Contexto y optimización
- Largo de contexto nativo: 128,000 tokens
- Cuantificación: Native MXFP4 (precisión de 4.25 bits) para pesos de MOE
- Eficiencia de memoria: Se ejecuta en memoria de 16 GB con cuantización
- Tokenizador: O200K_Harmony (Superset of GPT-4O Tokenizer)
Características de rendimiento
GPT-OSS 20B usa Patrones de atención escasos densos y de bandas locales alternativas Similar a GPT-3, con Incrustación posicional rotativa (cuerda) para codificación posicionallu⁵.
Comparación de filosofía arquitectónica
Profundidad contra organización de orondo
QWEN3 30B-A3B enfatizado profundidad y disparidad de expertos:
- 48 capas habilitan razonamiento de varias etapas y percepción jerárquica
- 128 expertos por capa proporcionan especialización de ántrax fino
- Adecuado para tareas de razonamiento complejas que requieren un procesamiento profundo
GPT-OSS 20B priorizar orondo y densidad computacional:
- 24 capas con expertos más grandes maximizan la capacidad de representación para la capa
- Menos pero más poderosos expertos (32 frente a 128) aumentan la capacidad de expertos individuales
- Optimizado para una inferencia válido de un solo paso
Estrategias de enrutamiento de MOE
Qwen3: Rutas tokens a través de 8 de 128 expertosalentar rutas de procesamiento diversas y sensibles al contexto y la toma de decisiones modulares.
Gt-oss: Rutas tokens a través de 4 de 32 expertosmaximizando la potencia computacional por entendido y la entrega de procesamiento concentrado por paso de inferencia.
Consideraciones de memoria e implementación
QWEN3 30B-A3B
- Requisitos de memoria: Variable basada en precisión y largo de contexto
- Despliegue: Optimizado para la implementación de nubes y borde con extensión de contexto flexible
- Cuantificación: Admite varios esquemas de cuantización posteriores al entrenamiento
GPT-OSS 20B
- Requisitos de memoria: 16 GB con cuantización nativa de MXFP4, ~ 48 GB en BFLOAT16
- Despliegue: Diseñado para la compatibilidad del hardware del consumidor
- Cuantificación: El entrenamiento nativo de MXFP4 permite una inferencia válido sin degradación de calidad
Características de rendimiento
QWEN3 30B-A3B
- Sobresale razonamiento matemático, codificación y tareas lógicas complejas
- Cachas rendimiento en escenarios multilingües En 119 idiomas
- Modo de pensamiento Proporciona capacidades de razonamiento mejoradas para problemas complejos
GPT-OSS 20B
- Logra Rendimiento comparable a Operai O3-Mini en puntos de remisión estereotipado
- Optimizado para Uso de herramientas, navegación web y llamadas de funciones
- Cachas razonamiento de la dependencia de pensamiento con niveles de esfuerzo de razonamiento ajustable
Recomendaciones de casos de uso
Elija QWEN3 30B-A3B para:
- Tareas de razonamiento complejas que requieren procesamiento de varias etapas
- Aplicaciones multilingües en diversos idiomas
- Escenarios que requieren extensión de largo de contexto flexible
- Aplicaciones donde se valora la transparencia de pensamiento/razonamiento
Elija GPT-OSS 20B para:
- Implementaciones con capital limitados que requieren eficiencia
- Aplicaciones de llamadas de herramientas y agentes
- Inferencia rápida con un rendimiento consistente
- Escenarios de implementación de borde con memoria limitada
Conclusión
QWEN3 30B-A3B y GPT-OSS 20B representan enfoques complementarios para el diseño de edificación MOE. QWEN3 enfatiza la profundidad, la disparidad experta y la capacidad multilingüe, lo que lo hace adecuado para aplicaciones de razonamiento complejas. GPT-OSS 20B prioriza la eficiencia, la integración de herramientas y la flexibilidad de la implementación, posicionándola para entornos de producción prácticos con restricciones de capital.
Uno y otro modelos demuestran la cambio de las arquitecturas MOE más allá de la escalera simple de los parámetros, incorporando opciones de diseño sofisticadas que alinean las decisiones arquitectónicas con casos de uso previstos y escenarios de implementación.
Nota: Este artículo está inspirado en el Reddit Post y diagrama compartido por Sebastian Raschka.
Fuentes
- Plástico maniquí QWEN3 30B-A3B-Cara abrazada
- Blog técnico de Qwen3
- Especificaciones de cojín QWEN3 30B-A3B
- QWEN3 30B-A3B INSTRUCT 2507
- Documentación oficial de Qwen3
- Documentación de tokenizador de qwen
- Características del maniquí QWEN3
- Entrada de OpenAi GPT-OSS
- Repositorio de GPT-OSS GitHub
- GPT-OSS 20B-Documentación de Groq
- Detalles técnicos de OpenAI GPT-OSS
- Blog de revolcón GPT-OSS
- Plástico maniquí Operai GPT-OSS 20B
- Entrada de OpenAi GPT-OSS
- Blog técnico NVIDIA GPT-ASS
- Blog de revolcón GPT-OSS
- Descomposición de rendimiento de Qwen3
- Plástico maniquí OpenAI GPT-OSS
- Capacidades GPT-OSS 20B
Michal Sutter es un profesional de la ciencia de datos con una Destreza en Ciencias en Ciencias de Datos de la Universidad de Padova. Con una cojín sólida en exploración estadístico, educación necesario e ingeniería de datos, Michal se destaca por elaborar conjuntos de datos complejos en ideas procesables.
