Qwen3.6-35B-A3B — Fiche Technique Complète

📋 Vue d'ensemble

Qwen3.6-35B-A3B est le premier modèle open-weight de la famille Qwen3.6, développé par l'équipe Qwen d'Alibaba. Libéré le 16 avril 2026 sous licence Apache 2.0, il combine une architecture MoE sparse avec un encodeur vision multimodal, offrant des performances de niveau frontier à un coût d'inférence réduit.

Fournisseur Alibaba (Qwen Team)

Date de sortie 16 avril 2026

Licence Apache 2.0

Type MoE Sparse Multimodal

Paramètres totaux 35 milliards

Paramètres actifs / token ~3 milliards

Ratio de sparsité ~12:1

Longueur de contexte 256K tokens (extensible 1M+ via YaRN)

Architecture des couches 40 couches hybrides

KV Heads 2

Head Dimension 256

Experts 256 (8 routés + 1 shared)

Expert dimension 512

Capacités Chat, Coding, Reasoning, Vision, Math, Tool Use

Modes Thinking + Non-thinking

Téléchargements HF > 100K

🏗️ Architecture technique

🧠

Visualisation interactive du réseau neuronal Explorez l'architecture MoE, les 40 couches, le routage des experts et les connexions du modèle — en 3D interactif

→

Structure des 40 couches

Input

→

Router MoE

→

8 experts routés

+ 1 shared

→

DeltaNet + Attention

→

Output

Pattern répété : 10 × (3 × DeltaNet + 1 × Attention) sur 256 experts — dimension 512

⚡

Gated DeltaNet (Attention Linéaire)

Alternative efficace à l'attention standard. Permet une complexité linéaire en longueur de séquence au lieu de quadratique, rendant le contexte long beaucoup plus abordable en mémoire et calcul.

🔀

Mixture-of-Experts Sparse

256 experts au total, dont 8 activés par token + 1 shared. Le router MoE sélectionne dynamiquement les experts les plus pertinents, offrant la capacité d'un modèle 35B au coût d'un modèle 3B.

👁️

Encodeur Vision Multimodal

Intègre un encodeur d'images natif. Compréhension visuelle et vidéo sans besoin de modèle séparé. Performances vision comparables à Claude Sonnet 4.5 sur plusieurs tâches.

🧠

Thinking Preservation

Fonctionnalité unique : le modèle conserve son contexte de raisonnement entre les tours de conversation. Idéal pour les agent loops — il se souvient de ses décisions antérieures sans ré-injection manuelle.

📊 Benchmarks

Scores officiels du modèle sur les benchmarks clés. Le modèle excelle particulièrement sur le coding agentic et le raisonnement.

SWE-bench Verified

Résolution de problèmes logiciels réels sur GitHub

73.4%

SWE-bench Pro

Ingénierie logiciel avancée sur dépôts réels

49.5%

Terminal-Bench 2.0

Coding agentic via terminal (navigation, exécution, écriture)

51.5%

LiveCodeBench

Compétition de codage en temps réel

80.4%

MMLU-PRO

Évaluation multi-tâches de raisonnement avancé

85.2%

AIME (Math)

Mathématiques avancées (concours américain)

92.7%

MMBench

Benchmark multimodal (vision + langage)

92.8%

GPQA Diamond

QA expert niveau doctorat (sciences)

86.0%

MMMU

Évaluation multimodale universitaire multi-discipline

81.7%

IFEval

Évaluation du respect d'instructions complexes

78.9%

MATH

Résolution de problèmes mathématiques

59.7%

BBH

Big-Bench Hard (raisonnement complexe)

58.3%

BigCodeBench

Évaluation de génération de code

32.3%

HLE

Humanity's Last Exam

21.4%

⚔️ Comparaison avec les concurrents

Qwen3.6-35B-A3B face à Gemma 4-31B et Claude Sonnet 4.5 sur les benchmarks clés.

📊

Voir tous les benchmarks détaillés Comparaisons étendues avec 20+ modèles, breakdown par catégorie et tendances

→

Benchmark	Qwen3.6-35B-A3B	Gemma 4-31B	Claude Sonnet 4.5
SWE-bench Verified	73.4	—	—
SWE-bench Pro	49.5	35.7	—
Terminal-Bench 2.0	51.5	42.9	—
LiveCodeBench	80.4	Competitif	—
RealWorldQA	85.3	—	70.3
MMLU-PRO	85.2	—	—
AIME	92.7	—	—
RefCOCO (Vision)	92.0	—	—
ODInW13 (Vision)	50.8	—	—

💾 Options de quantification

Le modèle est disponible en 14 formats de quantification. Le Q4_K_M (21.9 Go) est le choix recommandé pour un bon équilibre qualité/performance.

💾

Comprendre la quantification des modèles Tout expliquer sur la quantification : pourquoi, comment, et quel format choisir pour votre matériel

→

Format	BPW	VRAM	Qualité	Statut
IQ3_XXS	3.25	14.7 GB	Low	Économique
IQ3_XS	3.5	15.8 GB	Low	Économique
Q3_K_S	3.64	16.4 GB	Low	Économique
IQ3_M	3.72	16.8 GB	Low	Économique
Q3_K_M	4.0	18.0 GB	Low	Économique
Q3_K_L	4.25	19.1 GB	Low	Économique
IQ4_XS	4.37	19.6 GB	Moderate	Correct
Q4_K_S	4.5	20.2 GB	Moderate	Recommandé
Q4_K_M	4.89	21.9 GB	Good	Recommandé
Q5_K_S	5.57	24.9 GB	Good	Bon
Q5_K_M	5.7	25.4 GB	Good	Bon
Q6_K	6.56	29.2 GB	Excellent	Haute qualité
Q8_0	8.5	37.7 GB	Lossless	Lossless
FP16	16.0	70.5 GB	Lossless	Plein débit

🖥️ Compatibilité GPU (Q4_K_M — 21.9 GB)

Le modèle peut tourner sur des cartes grand public de 24 Go. Voici les options populaires.

⚙️

Comment LLaMA.cpp gère l'offload partiel Comprendre comment un modèle de 35B tourne sur une T1000 4Go grâce à l'offload partiel CPU/GPU

→

Carte	VRAM	Bandwidth	Prix approx.
RTX 4090	24 GB	1008 GB/s	$1 599
RTX 3090 / 3090 Ti	24 GB	936-1008 GB/s	$850-999
AMD RX 7900 XTX	24 GB	960 GB/s	$999
Apple M4 Pro (24GB)	24 GB	273 GB/s	$1 399
Apple M2 / M3 (24GB)	24 GB	100 GB/s	$699-999
NVIDIA A10G	24 GB	600 GB/s	$3 500
NVIDIA A10	24 GB	600 GB/s	$2 500

✨ Points forts

Ce qui rend Qwen3.6-35B-A3B particulièrement intéressant.

💻

Agentic Coding Excellence

Conçu spécifiquement pour le coding agentic : raisonnement à l'échelle du dépôt, navigation de codebase, multi-fichiers, tool calling natif. Score MCPMark de 37% (vs 18.1% pour Gemma 4). 2x+ plus capable que les modèles denses similaires en tool use.

🔄

Thinking Preservation

Conserve le contexte de raisonnement entre les tours. Contrairement aux modèles standards qui perdent leur chain-of-thought à chaque message, Qwen3.6 maintient la cohérence des décisions dans les agent loops multi-étapes.

🏠

Run Locally on Consumer Hardware

Quantifié en Q4_K_M (21.9 GB), il tourne sur une RTX 3090, un MacBook M2/M3/M4 avec 24 Go. 120+ tok/s sur RTX 4090. Le seul modèle frontier-competitive à ce budget.

📐

Contexte Long Extensible

256K tokens natifs, extensibles à 1M+ tokens via YaRN scaling. Ingestez des dépôts entiers dans un seul contexte. Idéal pour le RAG et le codebase understanding.

🌍

Multilingue

Entraîné sur de multiples langues. Performant en anglais, chinois, coréen, arabe et bien d'autres. Particulièrement fort en chinois grâce au background Alibaba.

📜

Licence Apache 2.0

Utilisation commerciale autorisée, modification, distribution, brevets inclus. L'un des modèles les plus permissifs de sa catégorie — zéro frais de licence.

🚀 Comment lancer le modèle

Plusieurs options pour exécuter Qwen3.6-35B-A3B localement ou via API.

Ollama (le plus simple)

Installation automatique, gestion GPU transparente.

brew install ollama
ollama run qwen3.6:35b-a3b

Unsloth (le plus rapide)

GGUF optimisé avec quantisation dynamique 4-bit.

pip install unsloth
# depuis Hugging Face :
# unsloth/Qwen3.6-35B-A3B-GGUF

Qwen Studio (Cloud)

Accès cloud via l'interface Qwen Studio. Pas d'installation requise.

https://qwen.ai
→ Qwen Studio → Qwen3.6-35B-A3B