Qwen ha estado agregando silenciosamente un maniquí tras otro. Cada uno de sus modelos viene empachado de características tan grandes y de tamaños tan cuantificadas que son simplemente imposibles de ignorar. A posteriori de QVQ, Qwen2.5-VL y Qwen2.5-OMNI este año, el equipo de Qwen ha osado su última comunidad de modelos: QWEN3. Esta vez han osado no uno sino ocho modelos diferentes, que van desde un maniquí de parámetros de 0.6 mil millones hasta un maniquí de parámetros de 235 mil millones, compitiendo con modelos principales como OPERAI’S O1, Géminis 2.5 Pro, Deepseek r1y más. En este blog, exploraremos los modelos QWEN3 en detalle y comprenderemos sus características, bloque, proceso de capacitación, rendimiento y aplicaciones. Comencemos.
¿Qué es Qwen3?
Desarrollado por el orden Alibaba, QWEN3 es la tercera vivientes de modelos QWEN que están diseñados para sobresalir en varias tareas como la codificación, el razonamiento y el procesamiento del jerga. La comunidad QWEN3 consta de 8 modelos diferentes que constan de 235 B, 30B, 32 B, 14 B, 8B, 4B, 1.7 B y 0.6 B parámetros. Todos los modelos son multimodales, lo que significa que pueden tomar texto, audio, imagen e incluso entradas de video e incluso han estado disponibles gratis.
Estos modelos compiten con modelos de nivel superior como O1, O3-Mini, Grok 3, Géminis 2.5 Proy más. De hecho, esta última serie de modelos QWEN no solo supera a los modelos populares, sino que además marca una alivio significativa sobre los modelos de series QWEN existentes en categorías de parámetros comparables. Por ejemplo, el maniquí QWEN-30B-A3B (30 mil millones de parámetros con 3 mil millones de parámetros activados) supera el maniquí de parámetros QWQ-32B que tiene todos sus 32 mil millones de parámetros activados.
Inmersión a los modelos QWEN3
La serie Qwen3 viene llena de 8 modelos, de los cuales dos son Mezcla de experiencia (MOE) Modelos, mientras que los otros 6 son modelos densos. La próximo tabla consiste en detalles sobre todos estos modelos:
| Nombre del maniquí | Parámetros totales | Parámetros activados (para modelos MOE) | Tipo de maniquí |
| QWEN3-235B-A22B | 235 mil millones | 22 mil millones | Moe (mezcla de expertos) |
| QWEN3-30B-A3B | 30 mil millones | 3 mil millones | Moe (mezcla de expertos) |
| QWEN3-32B | 32 mil millones | N / A | Denso |
| QWEN3-14B | 14 mil millones | N / A | Denso |
| Qwen3-8b | 8 mil millones | N / A | Denso |
| Qwen3-4b | 4 mil millones | N / A | Denso |
| Qwen3-1.7b | 1.700 millones | N / A | Denso |
| Qwen3-0.6b | 0.600 millones | N / A | Denso |
En modelos MOE como QWEN3-235B-A22B y QWEN3-30B-A3B, diferentes partes de la red o «expertos» se activan en función de diversas entradas, lo que las hace muy eficientes. En modelos densos como Qwen3-14b, todas las piezas de red se activan para cada entrada.
Características secreto de Qwen3
Aquí hay algunos aspectos secreto secreto sobre los modelos QWEN3:
1. Enfoque híbrido
(i) Modo de pensamiento: Este modo es útil cuando se comercio de tareas complejas que involucran razonamiento de varios pasos, deducción deducción o resolución avanzadilla de problemas. En este modo, el maniquí QWEN3 desglosa el problema legado en pequeños pasos manejables para montar a una respuesta.
(ii) Modo no pensativo: Este modo es ideal para tareas que exigen respuestas rápidas y eficientes como conversaciones en tiempo efectivo, recuperación de información o preguntas y respuestas simples. En este modo, los modelos QWEN3 generan rápidamente respuestas basadas en su conocimiento existente o simplemente en una simple búsqueda web.
Este enfoque híbrido ahora se está volviendo proporcionado popular entre todos los LLM de suspensión rendimiento, ya que el enfoque permite una mejor utilización de las capacidades de LLMS y permite un uso cuerdo de tokens.

2. Pensamiento de flexibilidad
Los últimos modelos de la serie Qwen3 brindan a los usuarios para controlar además la «profundidad» de pensamiento. Esta es la primera característica de su tipo, donde el becario puede designar cuando el nivel de posibles de «pensar» que desea usar para un problema determinado. Esto además permite a los usuarios gobernar mejor sus presupuestos para una tarea determinada que les ayuda a alcanzar un invariabilidad espléndido entre costo y calidad.
3. MCP y soporte de agente
Los modelos QWEN3 han sido optimizados para la codificación y las capacidades de agente. Estos además vienen con un viejo soporte para Protocolo de contexto del maniquí (MCP). Los modelos QWEN3 lo hacen mostrando mejores capacidades de interacción con el entorno foráneo. Igualmente vienen llenos de capacidad mejorada de «llamadas de herramientas» que los hacen esenciales para construir agentes inteligentes. De hecho, han osado «Qwen-Agent» una útil separada para permitir la creación de agentes inteligentes que usan modelos QWEN.
4. Mejorado pre y luego de la capacitación
(i) Pre-capacitación: Su proceso de previación fue un proceso de 3 pasos. El primer paso implicó capacitar más de 30 billones de tokens con una largura de contexto 4K. El segundo paso involucró la capacitación en tareas STEM, codificación y razonamiento, mientras que el paso final implicó capacitar con datos de contexto dadivoso para extender la largura de contexto a 32k tokens.
(ii) Entrenamiento posterior: Los modelos QWEN3 que admiten el enfoque de «pensamiento» híbrido admiten el proceso de razonamiento de 4 pasos. Los 4 pasos involucraron un dadivoso esclavitud de pensamiento (Cuna) Inicio en frío, basado en el razonamiento educación de refuerzo (RL), Fusión del modo de pensamiento y finalmente educación de refuerzo militar. El entrenamiento de modelos livianos implicó la destilación de los modelos colchoneta.

5. Características de accesibilidad
(i) Peso hendido: Todos los modelos QWEN3 son de peso hendido bajo la osadía Apache 2.0. Esto significa que los usuarios pueden descargar, usar e incluso modificar estos modelos sin restricciones importantes.
(ii) Soporte multilingüe: El maniquí actualmente admite más de 119 idiomas y dialectos, lo que lo convierte en uno de los pocos LLM en la inclusión del jerga.
Modelos QWEN3: aplicaciones prácticas
Ahora que hemos discutido todas sus características en detalle, es hora de explorar las capacidades de los modelos QWEN3. Probaremos los siguientes tres modelos: QWEN3-235B-A22B, QWEN3-30B-A3B y QWEN3-32B en las siguientes tres tareas:
- Razonamiento deductivo enredado
- Codificación
- Observación de imágenes
Comencemos.
Tarea 1: razonamiento deductivo enredado
Inmediato: “Un cosmonauta viaja desde la Tierra hasta una hado lejana a 8 primaveras de luz a 0.8 ° C (80% de la velocidad de la luz), como se mide desde el ámbito de la Tierra. En el punto medio del alucinación, los desvíos de astronautas cerca de un agujero irritado, donde se produce un válido tiempo gravitacional.
El cosmonauta afirma que, incluido el desvío, solo pasaron 6 primaveras para ellos durante todo el alucinación.
Utilizando la relatividad distinto y los principios de dilatación del tiempo gravitacional, evalúe si la afirmación del cosmonauta de «solo 6 primaveras aprobados» es consistente con los bienes relativistas conocidos. Proporcione una explicación paso a paso considerando el tiempo experimentado tanto en movimiento uniforme como en cerca del agujero irritado «.
Maniquí: QWEN3-30B-A3B
Producción:
Revisar:
¡Es impresionante lo rápido que funciona este maniquí! Resuelve el problema paso a paso y explica cada paso simplemente. El maniquí luego proporciona cálculos detallados relevantes para la información del problema y luego genera de modo concluyente el resultado. Explica encima el resultado y asegura que todos los puntos estén cubiertos de modo efectiva.
Tarea 2: codificación
Inmediato: «Cree una página web que ayude a los usuarios a sugerir el mejor atuendo para ellos en función del clima, la ocasión, la hora del día y el rango de precios».
Maniquí: QWEN3-235B-A22B
Producción:

Revisar:
El maniquí generó rápidamente el código para la página web con todas las entradas relevantes y fue sencillo probar el código utilizando la función «Artifactos» interiormente de la interfaz Qwenchat. A posteriori de implementar el código, acabo de anexar los detalles a la página web generada y obtuve las recomendaciones de atuendo basadas en mis requisitos, ¡todo en unos segundos! Este maniquí mostró velocidad con precisión.
Tarea 3: Observación de imágenes
Inmediato: «Analice las siguientes imágenes y organice los modelos en el orden descendente de su rendimiento en el punto de remisión» LivecodeBench «.
Maniquí: QWEN3-32B
Producción:
Revisar:
El maniquí es excelente en el prospección de imágenes. Escanea las dos imágenes rápidamente y luego en función de ellas, el maniquí ofrece el resultado en el formato que lo solicitamos. La mejor parte de este maniquí es qué tan rápido procesa toda la información y genera la salida.
Qwen3: rendimiento de remisión
En la última sección, vimos el rendimiento de 3 modelos QWEN3 diferentes en 3 tareas diferentes. Los tres modelos se desempeñaron admisiblemente y me sorprendieron con su enfoque de resolución de problemas. Ahora veamos el rendimiento de remisión de los modelos QWEN en comparación con los otros modelos principales y los modelos anteriores de la serie QWEN.

En comparación con los modelos de nivel superior como OpenAI-O1, Deepseek-R1, Grok 3, Gemini 2.5 Pro-Qwen-235B-A22B se erige como un campeón claro, y con razón. Ofrece un rendimiento culminante a través de la codificación y los puntos de remisión de soporte de idiomas multilingües.
De hecho, el maniquí compacto QWEN3-32B además fue capaz de pasar a varios modelos, por lo que es una disyuntiva rentable para muchas tareas.

En comparación con sus predecesores, los modelos QWEN3: QWEN3-30B-A3B y QWEN3-4B superan a la mayoría de los modelos existentes. Estos modelos no solo ofrecen un mejor rendimiento, sino que con sus precios rentables, los modelos QWEN3 efectivamente son un paso delante sobre sus versiones anteriores.
Lea además: Kimi K1.5 vs Deepseek R1: Batalla de los mejores LLM chinos
¿Cómo entrar a los modelos QWEN3?
Para entrar a los modelos QWEN3, puede usar cualquiera de los siguientes métodos:
- Brindar Qwenchat
Dirigirse a Qwenchat.
- Seleccione el maniquí
Seleccione el maniquí con el que desea trabajar desde el desplegable presente en el flanco izquierdo, en el medio de la pantalla.
- Obtener a modelos post-capacitados y pre-capacitados
Para entrar a los modelos posteriores a la capacitación y a sus homólogos previamente capacitados, la cara a la cara abrazada, Modelscope y Kaggle.
- Implementación de los modelos
Para la implementación, puede usar marcos como SGLANG y VLLM.
- Obtener a los modelos localmente
Para entrar a estos modelos localmente, use herramientas como Ollama, LMStudio, MLX, Candela.CPP y Ktransformers.
Aplicaciones de modelos QWEN3
Los modelos QWEN3 son impresionantes y pueden ser de gran ayuda en tareas como:
- Edificio de agente: Los modelos QWEN3 se han desarrollado con características mejoradas de reducción de funciones que los convertirían en una opción ideal para desarrollar agentes de IA. Estos agentes pueden ayudarnos con varias tareas que involucran finanzas, atención médica, posibles humanos y más.
- Tareas multilingües: Los modelos QWEN3 han sido capacitados en varios idiomas y pueden ser un gran valía adicional para desarrollar herramientas que requieren soporte en múltiples idiomas. Estos pueden involucrar tareas como la traducción del idioma en tiempo efectivo, el prospección de idiomas y el procesamiento.
- Aplicaciones móviles: Los modelos QWEN3 de tamaño pequeño son significativamente mejores que los otros SLM en la misma categoría. Estos se pueden usar para desarrollar aplicaciones móviles con soporte LLM.
- Apoyo a la valor para problemas complejos: Los modelos vienen con un modo de pensamiento que puede ayudar a romper problemas complejos como proyecciones, planificación de activos y papeleo de posibles.
Conclusión
En un mundo donde cada posterior LLM de las principales compañías como OpenAI y Google ha tratado de anexar parámetros, los modelos QWEN3 aportan eficiencia incluso a los más pequeños de sus modelos. Estos son gratuitos para probar para todos y se han puesto a disposición del conocido para ayudar a los desarrolladores a crear aplicaciones increíbles.
¿Se están rompiendo estos modelos? Tal vez no, pero ¿son estos mejores? ¡Definitivamente sí! Por otra parte, con un pensamiento flexible, estos modelos permiten a los usuarios asignar posibles de acuerdo con la complejidad de las tareas. Siempre espero con ansias las versiones del maniquí QWEN, porque lo que hacen es enfardar la calidad y las características y herir un resultado que la mayoría de los modelos superiores aún no han podido alcanzar.
Inicie sesión para continuar leyendo y disfrutando de contenido curado por expertos.