Modèle MoE multimodal sparse de nouvelle génération — performance frontier à coût local
Qwen3.6-35B-A3B est le premier modèle open-weight de la famille Qwen3.6, développé par l'équipe Qwen d'Alibaba. Libéré le 16 avril 2026 sous licence Apache 2.0, il combine une architecture MoE sparse avec un encodeur vision multimodal, offrant des performances de niveau frontier à un coût d'inférence réduit.
Scores officiels du modèle sur les benchmarks clés. Le modèle excelle particulièrement sur le coding agentic et le raisonnement.
Qwen3.6-35B-A3B face à Gemma 4-31B et Claude Sonnet 4.5 sur les benchmarks clés.
| Benchmark | Qwen3.6-35B-A3B | Gemma 4-31B | Claude Sonnet 4.5 |
|---|---|---|---|
| SWE-bench Verified | 73.4 | — | — |
| SWE-bench Pro | 49.5 | 35.7 | — |
| Terminal-Bench 2.0 | 51.5 | 42.9 | — |
| LiveCodeBench | 80.4 | Competitif | — |
| RealWorldQA | 85.3 | — | 70.3 |
| MMLU-PRO | 85.2 | — | — |
| AIME | 92.7 | — | — |
| RefCOCO (Vision) | 92.0 | — | — |
| ODInW13 (Vision) | 50.8 | — | — |
Le modèle est disponible en 14 formats de quantification. Le Q4_K_M (21.9 Go) est le choix recommandé pour un bon équilibre qualité/performance.
| Format | BPW | VRAM | Qualité | Statut |
|---|---|---|---|---|
| IQ3_XXS | 3.25 | 14.7 GB | Low | Économique |
| IQ3_XS | 3.5 | 15.8 GB | Low | Économique |
| Q3_K_S | 3.64 | 16.4 GB | Low | Économique |
| IQ3_M | 3.72 | 16.8 GB | Low | Économique |
| Q3_K_M | 4.0 | 18.0 GB | Low | Économique |
| Q3_K_L | 4.25 | 19.1 GB | Low | Économique |
| IQ4_XS | 4.37 | 19.6 GB | Moderate | Correct |
| Q4_K_S | 4.5 | 20.2 GB | Moderate | Recommandé |
| Q4_K_M | 4.89 | 21.9 GB | Good | Recommandé |
| Q5_K_S | 5.57 | 24.9 GB | Good | Bon |
| Q5_K_M | 5.7 | 25.4 GB | Good | Bon |
| Q6_K | 6.56 | 29.2 GB | Excellent | Haute qualité |
| Q8_0 | 8.5 | 37.7 GB | Lossless | Lossless |
| FP16 | 16.0 | 70.5 GB | Lossless | Plein débit |
Le modèle peut tourner sur des cartes grand public de 24 Go. Voici les options populaires.
| Carte | VRAM | Bandwidth | Prix approx. |
|---|---|---|---|
| RTX 4090 | 24 GB | 1008 GB/s | $1 599 |
| RTX 3090 / 3090 Ti | 24 GB | 936-1008 GB/s | $850-999 |
| AMD RX 7900 XTX | 24 GB | 960 GB/s | $999 |
| Apple M4 Pro (24GB) | 24 GB | 273 GB/s | $1 399 |
| Apple M2 / M3 (24GB) | 24 GB | 100 GB/s | $699-999 |
| NVIDIA A10G | 24 GB | 600 GB/s | $3 500 |
| NVIDIA A10 | 24 GB | 600 GB/s | $2 500 |
Ce qui rend Qwen3.6-35B-A3B particulièrement intéressant.
Plusieurs options pour exécuter Qwen3.6-35B-A3B localement ou via API.
Installation automatique, gestion GPU transparente.
brew install ollama
ollama run qwen3.6:35b-a3b
GGUF optimisé avec quantisation dynamique 4-bit.
pip install unsloth
# depuis Hugging Face :
# unsloth/Qwen3.6-35B-A3B-GGUF
Accès cloud via l'interface Qwen Studio. Pas d'installation requise.
https://qwen.ai
→ Qwen Studio → Qwen3.6-35B-A3B