Open Source  •  Apache 2.0  •  Alibaba Qwen Team

Qwen3.6-35B-A3B

Modèle MoE multimodal sparse de nouvelle génération — performance frontier à coût local

35B
Paramètres totaux
3B
Paramètres actifs
256K
Contexte tokens
73.4
SWE-bench Verified
📋 Vue d'ensemble

Qwen3.6-35B-A3B est le premier modèle open-weight de la famille Qwen3.6, développé par l'équipe Qwen d'Alibaba. Libéré le 16 avril 2026 sous licence Apache 2.0, il combine une architecture MoE sparse avec un encodeur vision multimodal, offrant des performances de niveau frontier à un coût d'inférence réduit.

Fournisseur Alibaba (Qwen Team)
Date de sortie 16 avril 2026
Licence Apache 2.0
Type MoE Sparse Multimodal
Paramètres totaux 35 milliards
Paramètres actifs / token ~3 milliards
Ratio de sparsité ~12:1
Longueur de contexte 256K tokens (extensible 1M+ via YaRN)
Architecture des couches 40 couches hybrides
KV Heads 2
Head Dimension 256
Experts 256 (8 routés + 1 shared)
Expert dimension 512
Capacités Chat, Coding, Reasoning, Vision, Math, Tool Use
Modes Thinking + Non-thinking
Téléchargements HF > 100K
🏗️ Architecture technique
Structure des 40 couches
Input
Router MoE
8 experts routés
+ 1 shared
DeltaNet + Attention
Output
Pattern répété : 10 × (3 × DeltaNet + 1 × Attention) sur 256 experts — dimension 512
Gated DeltaNet (Attention Linéaire)
Alternative efficace à l'attention standard. Permet une complexité linéaire en longueur de séquence au lieu de quadratique, rendant le contexte long beaucoup plus abordable en mémoire et calcul.
🔀
Mixture-of-Experts Sparse
256 experts au total, dont 8 activés par token + 1 shared. Le router MoE sélectionne dynamiquement les experts les plus pertinents, offrant la capacité d'un modèle 35B au coût d'un modèle 3B.
👁️
Encodeur Vision Multimodal
Intègre un encodeur d'images natif. Compréhension visuelle et vidéo sans besoin de modèle séparé. Performances vision comparables à Claude Sonnet 4.5 sur plusieurs tâches.
🧠
Thinking Preservation
Fonctionnalité unique : le modèle conserve son contexte de raisonnement entre les tours de conversation. Idéal pour les agent loops — il se souvient de ses décisions antérieures sans ré-injection manuelle.
📊 Benchmarks

Scores officiels du modèle sur les benchmarks clés. Le modèle excelle particulièrement sur le coding agentic et le raisonnement.

SWE-bench Verified
Résolution de problèmes logiciels réels sur GitHub
73.4%
SWE-bench Pro
Ingénierie logiciel avancée sur dépôts réels
49.5%
Terminal-Bench 2.0
Coding agentic via terminal (navigation, exécution, écriture)
51.5%
LiveCodeBench
Compétition de codage en temps réel
80.4%
MMLU-PRO
Évaluation multi-tâches de raisonnement avancé
85.2%
AIME (Math)
Mathématiques avancées (concours américain)
92.7%
MMBench
Benchmark multimodal (vision + langage)
92.8%
GPQA Diamond
QA expert niveau doctorat (sciences)
86.0%
MMMU
Évaluation multimodale universitaire multi-discipline
81.7%
IFEval
Évaluation du respect d'instructions complexes
78.9%
MATH
Résolution de problèmes mathématiques
59.7%
BBH
Big-Bench Hard (raisonnement complexe)
58.3%
BigCodeBench
Évaluation de génération de code
32.3%
HLE
Humanity's Last Exam
21.4%
⚔️ Comparaison avec les concurrents

Qwen3.6-35B-A3B face à Gemma 4-31B et Claude Sonnet 4.5 sur les benchmarks clés.

Benchmark Qwen3.6-35B-A3B Gemma 4-31B Claude Sonnet 4.5
SWE-bench Verified 73.4
SWE-bench Pro 49.5 35.7
Terminal-Bench 2.0 51.5 42.9
LiveCodeBench 80.4 Competitif
RealWorldQA 85.3 70.3
MMLU-PRO 85.2
AIME 92.7
RefCOCO (Vision) 92.0
ODInW13 (Vision) 50.8
💾 Options de quantification

Le modèle est disponible en 14 formats de quantification. Le Q4_K_M (21.9 Go) est le choix recommandé pour un bon équilibre qualité/performance.

Format BPW VRAM Qualité Statut
IQ3_XXS 3.25 14.7 GB Low Économique
IQ3_XS 3.5 15.8 GB Low Économique
Q3_K_S 3.64 16.4 GB Low Économique
IQ3_M 3.72 16.8 GB Low Économique
Q3_K_M 4.0 18.0 GB Low Économique
Q3_K_L 4.25 19.1 GB Low Économique
IQ4_XS 4.37 19.6 GB Moderate Correct
Q5_K_S 5.57 24.9 GB Good Bon
Q5_K_M 5.7 25.4 GB Good Bon
Q6_K 6.56 29.2 GB Excellent Haute qualité
Q8_0 8.5 37.7 GB Lossless Lossless
FP16 16.0 70.5 GB Lossless Plein débit
🖥️ Compatibilité GPU (Q4_K_M — 21.9 GB)

Le modèle peut tourner sur des cartes grand public de 24 Go. Voici les options populaires.

Carte VRAM Bandwidth Prix approx.
RTX 4090 24 GB 1008 GB/s $1 599
RTX 3090 / 3090 Ti 24 GB 936-1008 GB/s $850-999
AMD RX 7900 XTX 24 GB 960 GB/s $999
Apple M4 Pro (24GB) 24 GB 273 GB/s $1 399
Apple M2 / M3 (24GB) 24 GB 100 GB/s $699-999
NVIDIA A10G 24 GB 600 GB/s $3 500
NVIDIA A10 24 GB 600 GB/s $2 500
Points forts

Ce qui rend Qwen3.6-35B-A3B particulièrement intéressant.

💻
Agentic Coding Excellence
Conçu spécifiquement pour le coding agentic : raisonnement à l'échelle du dépôt, navigation de codebase, multi-fichiers, tool calling natif. Score MCPMark de 37% (vs 18.1% pour Gemma 4). 2x+ plus capable que les modèles denses similaires en tool use.
🔄
Thinking Preservation
Conserve le contexte de raisonnement entre les tours. Contrairement aux modèles standards qui perdent leur chain-of-thought à chaque message, Qwen3.6 maintient la cohérence des décisions dans les agent loops multi-étapes.
🏠
Run Locally on Consumer Hardware
Quantifié en Q4_K_M (21.9 GB), il tourne sur une RTX 3090, un MacBook M2/M3/M4 avec 24 Go. 120+ tok/s sur RTX 4090. Le seul modèle frontier-competitive à ce budget.
📐
Contexte Long Extensible
256K tokens natifs, extensibles à 1M+ tokens via YaRN scaling. Ingestez des dépôts entiers dans un seul contexte. Idéal pour le RAG et le codebase understanding.
🌍
Multilingue
Entraîné sur de multiples langues. Performant en anglais, chinois, coréen, arabe et bien d'autres. Particulièrement fort en chinois grâce au background Alibaba.
📜
Licence Apache 2.0
Utilisation commerciale autorisée, modification, distribution, brevets inclus. L'un des modèles les plus permissifs de sa catégorie — zéro frais de licence.

🚀 Comment lancer le modèle

Plusieurs options pour exécuter Qwen3.6-35B-A3B localement ou via API.

Ollama (le plus simple)

Installation automatique, gestion GPU transparente.

brew install ollama ollama run qwen3.6:35b-a3b

Unsloth (le plus rapide)

GGUF optimisé avec quantisation dynamique 4-bit.

pip install unsloth # depuis Hugging Face : # unsloth/Qwen3.6-35B-A3B-GGUF

Qwen Studio (Cloud)

Accès cloud via l'interface Qwen Studio. Pas d'installation requise.

https://qwen.ai → Qwen Studio → Qwen3.6-35B-A3B