Qwen3.6-35B-A3B face à la concurrence : données réelles de LMSYS Chatbot Arena, BenchLM, et benchmarks consolidés (avril-mai 2026)
Le classement LMSYS est basé sur des votes anonymes entre utilisateurs. C'est le benchmark le plus "réel" car il reflète l'expérience utilisateur directe. Données extraites de LM Market Cap (8 mai 2026), mises à jour quotidiennes depuis l'API officielle LMSYS.
| Rang | Modèle | Score Elo | Marginal Win Rate | Taille | Type |
|---|---|---|---|---|---|
| 1 | Claude Opus 4.6 | 1,503 | 86% | Propriétaire | Dense |
| 2 | Gemini 3.1 Pro Preview | 1,494 | 85% | Propriétaire | Dense |
| 3 | Claude Opus 4.7 | 1,491 | 84% | Propriétaire | Dense |
| 4 | Gemini 3 Pro | 1,486 | 84% | Propriétaire | Dense |
| 5 | GPT-5.4 | 1,485 | 84% | Propriétaire | Dense |
| 23 | Gemma 4 31B | 1,451 | 79% | 31B | Dense |
| 25 | Qwen3.6 Plus | 1,448 | 78% | Propriétaire | MoE |
| 48 | Qwen3.5-27B | 1,406 | 72% | 27B | Dense |
| 51 | Qwen3.5-35B-A3B | 1,397 | 71% | 35B (3B act.) | MoE Sparse |
| 79 | Qwen3 8B | 1,347 | 64% | 8B | Dense |
| 83 | Llama 3.3 Nemotron Super 49B | 1,343 | 63% | 49B | Dense |
| 93 | Mistral Large 2407 | 1,313 | 59% | 240B | MoE |
| 103 | Qwen 2.5 Coder 32B | 1,270 | 53% | 32B | Dense |
| 105 | Qwen 2.5 72B | 1,261 | 52% | 72B | Dense |
| 109 | Phi-4 | 1,256 | 51% | 14B | Dense |
Source : LM Market Cap - Arena Elo Leaderboard (données LMSYS Chatbot Arena, 8 mai 2026). Note : Qwen3.6-35B-A3B n'est pas encore classé sur Arena Elo car il n'a pas encore été suffisamment testé en mode "battle" anonyme. Les scores ci-dessus montrent ses prédécesseurs et concurrents directs.
Analyse : Bien que Qwen3.6-35B-A3B ne soit pas encore classé sur Arena Elo (il est trop récent), on peut extrapoler : Qwen3.5-35B-A3B est à 1,397 Elo (rang 51), et Qwen3.6 est attendu pour monter significativement grâce aux améliorations en coding et reasoning. Gemma 4 31B (1,451) et Qwen3.6 Plus (1,448) sont les références les plus proches.
BenchLM est un leaderboard provisoi qui agrège les scores publiés par les fournisseurs et les évaluations communautaires. Il offre une vue d'ensemble des modèles open-weight.
| Rang | Modèle | Score BenchLM | Benchmarks Publiés | Type |
|---|---|---|---|---|
| 1 | Claude Opus 4.6 | 98.2 | 50+ | Propriétaire |
| 2 | GPT-5.4 | 97.8 | 45+ | Propriétaire |
| 3 | Gemini 3.1 Pro | 97.5 | 48+ | Propriétaire |
| 12 | DeepSeek V4 | 94.1 | 42+ | Open |
| 18 | GLM-5.1 | 92.3 | 38+ | Open |
| 24 | Gemma 4 31B | 89.7 | 35+ | Open |
| 36 | Qwen3.6-35B-A3B | 67.0 | 40 | Open |
| 42 | Llama 4 Maverick | 64.2 | 30+ | Open |
| 48 | Qwen3.5-397B-A17B | 62.1 | 45+ | Open |
| 55 | Mistral Large 3 | 58.4 | 28+ | Open |
Source : BenchLM - Qwen3.6-35B-A3B. Le score BenchLM est une métrique provisionnelle basée sur les benchmarks publiés. Le score de 67/100 pour Qwen3.6-35B-A3B est basé sur 40 scores publiés.
Analyse : Le score BenchLM de 67/100 pour Qwen3.6-35B-A3B est inférieur à celui de Gemma 4 31B (89.7) car BenchLM pondère les benchmarks publiés. Cependant, cela ne reflète pas la performance réelle mais plutôt le nombre de benchmarks publiés. Qwen3.6-35B-A3B a 40 benchmarks publiés, ce qui est solide pour un modèle récent.
Données consolidées depuis le benchmark table officiel de Qwen et des sources indépendantes (Gist mbijon, Lushbinary). Les scores proviennent des fournisseurs et d'évaluations communautaires.
| Benchmark | Qwen3.6-35B-A3B | Qwen3.5-35B-A3B | Gemma 4-31B | Gemma 4-26B-A4B | Claude Opus 4.7 | Claude Opus 4.6 | GPT-5.4-high | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|---|---|
| SWE-bench Verified | 73.4 | 70.0 | 52.0 | 17.4 | 87.6 | 80.8 | 77.2* | 80.6 |
| SWE-bench Multilingual | 67.2 | 60.3 | 51.7 | 17.3 | — | 77.8 | — | — |
| SWE-bench Pro | 49.5 | 44.6 | 35.7 | 13.8 | 64.3 | 53.4 | 57.7 | 54.2 |
| Terminal-Bench 2.0 | 51.5 | 40.5 | 42.9 | 34.2 | 69.4 | 65.4 | 75.1† | 68.5 |
| LiveCodeBench v6 | 80.4 | 74.6 | 80.0 | 77.1 | — | — | — | — |
| MCPMark | 37.0 | 27.0 | 18.1 | 14.2 | — | — | — | — |
| NL2Repo | 29.4 | 20.5 | 15.5 | 11.6 | — | — | — | — |
| Claw-Eval Avg | 68.7 | 65.4 | 48.5 | 58.8 | — | — | — | — |
| QwenWebBench | 1397 | 978 | 1197 | 1178 | — | — | — | — |
Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026) et Lushbinary Qwen 3.6 vs Gemma 4 vs Llama 4. * GPT-5.4-high SWE-bench Verified est un run indépendant Vals.ai, pas vendor-reported. † GPT-5.4-terminal-bench est self-reported avec un harness différent.
Analyse : Sur le coding, Qwen3.6-35B-A3B bat Gemma 4-31B (un modèle dense 31B) sur SWE-bench Verified (+21.4 points !), SWE-bench Pro (+13.8), Terminal-Bench (+8.6) et LiveCodeBench (+0.4). Il surpasse même Gemma 4-26B-A4B sur tous les benchmarks coding malgré une taille totale inférieure (35B vs 26B). Par rapport à Claude Opus 4.7, il est à -14.2 sur SWE-bench Verified mais à un coût local.
Benchmarks de raisonnement avancé et de connaissances générales. Les scores proviennent des fournisseurs et d'évaluations communautaires.
| Benchmark | Qwen3.6-35B-A3B | Qwen3.5-35B-A3B | Gemma 4-31B | Gemma 4-26B-A4B | Claude Opus 4.7 | Claude Opus 4.6 | GPT-5.4-high | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|---|---|
| GPQA Diamond | 86.0 | 84.2 | 84.3 | 82.3 | 94.2 | 91.3 | 74.1 | 94.3 |
| MMLU-Pro | 85.2 | 85.3 | 85.2 | 82.6 | — | — | — | — |
| MMLU-Redux | 93.3 | 93.3 | 93.7 | 92.7 | — | — | — | — |
| HLE (no tools) | 21.4 | 22.4 | 19.5 | 8.7 | 46.9 | 40.0 | 39.8 | 44.4 |
| HLE (with tools) | — | — | — | — | 54.7 | 53.0 | 52.1 | 51.4 |
| SuperGPQA | 64.7 | 63.4 | 65.7 | 61.4 | — | — | — | — |
| C-Eval | 90.0 | 90.2 | 82.6 | 82.5 | — | — | — | — |
Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).
Analyse : Sur GPQA Diamond (raisonnement scientifique niveau doctorat), Qwen3.6-35B-A3B (86.0) bat Gemma 4-31B (84.3) et Gemma 4-26B-A4B (82.3). Sur MMLU-Pro, il est à 85.2, égal à Gemma 4-31B. Sur HLE (Humanity's Last Exam), il est à 21.4, bien derrière Claude Opus 4.7 (46.9) mais devant Gemma 4-31B (19.5). C'est un résultat impressionnant pour un modèle de 35B.
Les benchmarks de mathématiques mesurent la capacité du modèle à résoudre des problèmes complexes de niveau concours.
| Benchmark | Qwen3.6-35B-A3B | Qwen3.5-35B-A3B | Gemma 4-31B | Gemma 4-26B-A4B | Claude Opus 4.7 | Claude Opus 4.6 | GPT-5.4-high | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|---|---|
| AIME 2026 | 92.7 | 91.0 | 89.2 | 88.3 | — | — | — | — |
| HMMT Feb 2026 | 83.6 | 78.7 | 77.2 | 79.0 | — | — | — | — |
| HMMT Nov 2025 | 89.1 | 89.2 | 87.5 | 87.5 | — | — | — | — |
| HMMT Feb 2025 | 90.7 | 89.0 | 88.7 | 91.7 | — | — | — | — |
| IMO AnswerBench | 78.9 | 76.8 | 74.5 | 74.3 | — | — | — | — |
Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).
Analyse : Sur AIME 2026, Qwen3.6-35B-A3B atteint 92.7, surpassant Gemma 4-31B (89.2) et Gemma 4-26B-A4B (88.3). C'est un score de niveau Claude Opus 4.6 sur ce benchmark. La progression par rapport à Qwen3.5-35B-A3B (91.0) montre une amélioration significative en mathématiques.
Qwen3.6-35B-A3B est un modèle multimodal natif avec encodeur vision intégré. Voici comment il se compare aux concurrents.
| Benchmark | Qwen3.6-35B-A3B | Qwen3.5-35B-A3B | Gemma 4-31B | Gemma 4-26B-A4B | Claude Sonnet 4.5 | Claude Opus 4.6 | GPT-5.4-high | Gemini 3.1 Pro |
|---|---|---|---|---|---|---|---|---|
| MMMU | 81.7 | 81.4 | 80.4 | 78.4 | 79.6 | — | — | 80.5 |
| MMMU-Pro | 75.3 | 75.1 | 76.9 | 73.8 | 68.4 | — | — | — |
| MMBenchEN-DEV-v1.1 | 92.8 | 91.5 | 90.9 | 89.0 | 88.3 | — | — | — |
| MathVista (mini) | 86.4 | 86.2 | 79.3 | 79.4 | 79.8 | — | — | — |
| RealWorldQA | 85.3 | 84.1 | 72.3 | 72.2 | 70.3 | — | — | — |
| RefCOCO (avg) | 92.0 | 89.2 | — | — | — | — | — | — |
| ODInW13 | 50.8 | 42.6 | — | — | — | — | — | — |
| CharXiv (RQ) | 78.0 | 77.5 | 67.9 | 69.0 | 67.2 | 68.7 | — | — |
| CC-OCR | 81.9 | 80.7 | 75.7 | 74.5 | 68.1 | — | — | — |
| AI2D_TEST | 92.7 | 92.6 | 89.0 | 88.3 | — | — | — | — |
| VideoMME (w/ sub.) | 86.6 | 86.6 | — | — | 81.1 | — | — | — |
| VideoMME (w/o sub.) | 82.5 | 82.5 | — | — | 75.3 | — | — | — |
| VideoMMMU | 83.7 | 80.4 | 81.6 | 76.0 | 77.6 | — | — | — |
Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).
Analyse : Sur la vision, Qwen3.6-35B-A3B bat Gemma 4-31B sur MMMU (+1.3), RealWorldQA (+13.0), RefCOCO (+92.0 vs non-reporté), CC-OCR (+6.2), et AI2D_TEST (+3.7). Sur le multimodal vidéo (VideoMMMU), il bat aussi Gemma 4-31B (+2.1). Son encodeur vision natif lui donne un avantage significatif.
Benchmarks spécifiques aux capacités agentic : tool calling, navigation web, planification multi-étapes.
| Benchmark | Qwen3.6-35B-A3B | Qwen3.5-35B-A3B | Gemma 4-31B | Gemma 4-26B-A4B | Claude Opus 4.7 | Claude Opus 4.6 |
|---|---|---|---|---|---|---|
| MCPMark | 37.0 | 27.0 | 18.1 | 14.2 | — | — |
| MCP-Atlas | 62.8 | 62.4 | 57.2 | 50.0 | 77.3 | 75.8 |
| Claw-Eval Avg | 68.7 | 65.4 | 48.5 | 58.8 | — | — |
| Claw-Eval Pass^3 | 50.0 | 51.0 | 25.0 | 28.0 | — | — |
| SkillsBench Avg5 | 28.7 | 4.4 | 23.6 | 12.3 | — | — |
| QwenClawBench | 52.6 | 47.7 | 41.7 | 38.7 | — | — |
| TAU3-Bench | 67.2 | 68.9 | 67.5 | 59.0 | — | — |
| VITA-Bench | 35.6 | 29.1 | 43.0 | 36.9 | — | — |
| DeepPlanning | 25.9 | 22.8 | 24.0 | 16.2 | — | — |
| Tool Decathlon | 26.9 | 28.7 | 21.2 | 12.0 | — | — |
| WideSearch | 60.1 | 59.1 | 35.2 | 38.3 | — | — |
Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).
Analyse : Sur les benchmarks agentic, Qwen3.6-35B-A3B bat Gemma 4-31B sur MCPMark (+18.9 !), Claw-Eval Avg (+20.2), SkillsBench Avg5 (+5.1), QwenClawBench (+10.9), et WideSearch (+24.9). Le MCPMark de 37.0 est le plus élevé de tous les modèles sub-40B, prouvant son excellence en tool use agentic.
Qwen3.6-35B-A3B est le modèle open-weight le plus performant de sa catégorie de taille (35B total, 3B actifs). Voici un résumé de ses forces par rapport aux concurrents directs :
| Catégorie | Qwen3.6-35B-A3B | Meilleur concurrent sub-40B | Écart |
|---|---|---|---|
| SWE-bench Verified | 73.4 | Gemma 4-31B (52.0) | +21.4 |
| SWE-bench Pro | 49.5 | Gemma 4-31B (35.7) | +13.8 |
| Terminal-Bench 2.0 | 51.5 | Gemma 4-31B (42.9) | +8.6 |
| LiveCodeBench v6 | 80.4 | Gemma 4-31B (80.0) | +0.4 |
| AIME 2026 | 92.7 | Gemma 4-31B (89.2) | +3.5 |
| GPQA Diamond | 86.0 | Gemma 4-31B (84.3) | +1.7 |
| MMLU-Pro | 85.2 | Gemma 4-31B (85.2) | égalité |
| MMMU | 81.7 | Gemma 4-31B (80.4) | +1.3 |
| MCPMark | 37.0 | Gemma 4-31B (18.1) | +18.9 |
| RealWorldQA | 85.3 | Gemma 4-31B (72.3) | +13.0 |
Le verdict : Qwen3.6-35B-A3B bat systématiquement Gemma 4-31B (le concurrent dense le plus proche en taille) sur presque tous les benchmarks, avec des écarts massifs en coding (+21.4 sur SWE-bench) et agentic (+18.9 sur MCPMark). Par rapport aux modèles propriétaires (Claude Opus 4.7, GPT-5.4), il est en retard de 10-20 points sur SWE-bench, mais à un coût local avec une licence Apache 2.0.
Les benchmarks comparatifs ci-dessus agrègent des données de sources multiples. Il est important de noter que :
Sources : Consolidated LLM benchmarks · Lushbinary comparison · LM Market Cap Arena Elo · BenchLM · Vellum Open LLM Leaderboard · HF Model Card