← Retour à la fiche technique

Benchmarks Comparatifs

Qwen3.6-35B-A3B face à la concurrence : données réelles de LMSYS Chatbot Arena, BenchLM, et benchmarks consolidés (avril-mai 2026)

LMSYS Chatbot Arena (Classement Général)

Le classement LMSYS est basé sur des votes anonymes entre utilisateurs. C'est le benchmark le plus "réel" car il reflète l'expérience utilisateur directe. Données extraites de LM Market Cap (8 mai 2026), mises à jour quotidiennes depuis l'API officielle LMSYS.

Rang Modèle Score Elo Marginal Win Rate Taille Type
1 Claude Opus 4.6 1,503 86% Propriétaire Dense
2 Gemini 3.1 Pro Preview 1,494 85% Propriétaire Dense
3 Claude Opus 4.7 1,491 84% Propriétaire Dense
4 Gemini 3 Pro 1,486 84% Propriétaire Dense
5 GPT-5.4 1,485 84% Propriétaire Dense
23 Gemma 4 31B 1,451 79% 31B Dense
25 Qwen3.6 Plus 1,448 78% Propriétaire MoE
48 Qwen3.5-27B 1,406 72% 27B Dense
51 Qwen3.5-35B-A3B 1,397 71% 35B (3B act.) MoE Sparse
79 Qwen3 8B 1,347 64% 8B Dense
83 Llama 3.3 Nemotron Super 49B 1,343 63% 49B Dense
93 Mistral Large 2407 1,313 59% 240B MoE
103 Qwen 2.5 Coder 32B 1,270 53% 32B Dense
105 Qwen 2.5 72B 1,261 52% 72B Dense
109 Phi-4 1,256 51% 14B Dense

Source : LM Market Cap - Arena Elo Leaderboard (données LMSYS Chatbot Arena, 8 mai 2026). Note : Qwen3.6-35B-A3B n'est pas encore classé sur Arena Elo car il n'a pas encore été suffisamment testé en mode "battle" anonyme. Les scores ci-dessus montrent ses prédécesseurs et concurrents directs.

Analyse : Bien que Qwen3.6-35B-A3B ne soit pas encore classé sur Arena Elo (il est trop récent), on peut extrapoler : Qwen3.5-35B-A3B est à 1,397 Elo (rang 51), et Qwen3.6 est attendu pour monter significativement grâce aux améliorations en coding et reasoning. Gemma 4 31B (1,451) et Qwen3.6 Plus (1,448) sont les références les plus proches.

BenchLM Provisional Leaderboard

BenchLM est un leaderboard provisoi qui agrège les scores publiés par les fournisseurs et les évaluations communautaires. Il offre une vue d'ensemble des modèles open-weight.

Rang Modèle Score BenchLM Benchmarks Publiés Type
1 Claude Opus 4.6 98.2 50+ Propriétaire
2 GPT-5.4 97.8 45+ Propriétaire
3 Gemini 3.1 Pro 97.5 48+ Propriétaire
12 DeepSeek V4 94.1 42+ Open
18 GLM-5.1 92.3 38+ Open
24 Gemma 4 31B 89.7 35+ Open
36 Qwen3.6-35B-A3B 67.0 40 Open
42 Llama 4 Maverick 64.2 30+ Open
48 Qwen3.5-397B-A17B 62.1 45+ Open
55 Mistral Large 3 58.4 28+ Open

Source : BenchLM - Qwen3.6-35B-A3B. Le score BenchLM est une métrique provisionnelle basée sur les benchmarks publiés. Le score de 67/100 pour Qwen3.6-35B-A3B est basé sur 40 scores publiés.

Analyse : Le score BenchLM de 67/100 pour Qwen3.6-35B-A3B est inférieur à celui de Gemma 4 31B (89.7) car BenchLM pondère les benchmarks publiés. Cependant, cela ne reflète pas la performance réelle mais plutôt le nombre de benchmarks publiés. Qwen3.6-35B-A3B a 40 benchmarks publiés, ce qui est solide pour un modèle récent.

Benchmarks Coding (SWE-bench, Terminal-Bench, LiveCodeBench)

Données consolidées depuis le benchmark table officiel de Qwen et des sources indépendantes (Gist mbijon, Lushbinary). Les scores proviennent des fournisseurs et d'évaluations communautaires.

Benchmark Qwen3.6-35B-A3B Qwen3.5-35B-A3B Gemma 4-31B Gemma 4-26B-A4B Claude Opus 4.7 Claude Opus 4.6 GPT-5.4-high Gemini 3.1 Pro
SWE-bench Verified 73.4 70.0 52.0 17.4 87.6 80.8 77.2* 80.6
SWE-bench Multilingual 67.2 60.3 51.7 17.3 77.8
SWE-bench Pro 49.5 44.6 35.7 13.8 64.3 53.4 57.7 54.2
Terminal-Bench 2.0 51.5 40.5 42.9 34.2 69.4 65.4 75.1† 68.5
LiveCodeBench v6 80.4 74.6 80.0 77.1
MCPMark 37.0 27.0 18.1 14.2
NL2Repo 29.4 20.5 15.5 11.6
Claw-Eval Avg 68.7 65.4 48.5 58.8
QwenWebBench 1397 978 1197 1178

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026) et Lushbinary Qwen 3.6 vs Gemma 4 vs Llama 4. * GPT-5.4-high SWE-bench Verified est un run indépendant Vals.ai, pas vendor-reported. † GPT-5.4-terminal-bench est self-reported avec un harness différent.

Analyse : Sur le coding, Qwen3.6-35B-A3B bat Gemma 4-31B (un modèle dense 31B) sur SWE-bench Verified (+21.4 points !), SWE-bench Pro (+13.8), Terminal-Bench (+8.6) et LiveCodeBench (+0.4). Il surpasse même Gemma 4-26B-A4B sur tous les benchmarks coding malgré une taille totale inférieure (35B vs 26B). Par rapport à Claude Opus 4.7, il est à -14.2 sur SWE-bench Verified mais à un coût local.

Reasoning & Connaissances (GPQA, MMLU-Pro, HLE)

Benchmarks de raisonnement avancé et de connaissances générales. Les scores proviennent des fournisseurs et d'évaluations communautaires.

Benchmark Qwen3.6-35B-A3B Qwen3.5-35B-A3B Gemma 4-31B Gemma 4-26B-A4B Claude Opus 4.7 Claude Opus 4.6 GPT-5.4-high Gemini 3.1 Pro
GPQA Diamond 86.0 84.2 84.3 82.3 94.2 91.3 74.1 94.3
MMLU-Pro 85.2 85.3 85.2 82.6
MMLU-Redux 93.3 93.3 93.7 92.7
HLE (no tools) 21.4 22.4 19.5 8.7 46.9 40.0 39.8 44.4
HLE (with tools) 54.7 53.0 52.1 51.4
SuperGPQA 64.7 63.4 65.7 61.4
C-Eval 90.0 90.2 82.6 82.5

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).

Analyse : Sur GPQA Diamond (raisonnement scientifique niveau doctorat), Qwen3.6-35B-A3B (86.0) bat Gemma 4-31B (84.3) et Gemma 4-26B-A4B (82.3). Sur MMLU-Pro, il est à 85.2, égal à Gemma 4-31B. Sur HLE (Humanity's Last Exam), il est à 21.4, bien derrière Claude Opus 4.7 (46.9) mais devant Gemma 4-31B (19.5). C'est un résultat impressionnant pour un modèle de 35B.

Mathématiques (AIME, HMMT, IMO)

Les benchmarks de mathématiques mesurent la capacité du modèle à résoudre des problèmes complexes de niveau concours.

Benchmark Qwen3.6-35B-A3B Qwen3.5-35B-A3B Gemma 4-31B Gemma 4-26B-A4B Claude Opus 4.7 Claude Opus 4.6 GPT-5.4-high Gemini 3.1 Pro
AIME 2026 92.7 91.0 89.2 88.3
HMMT Feb 2026 83.6 78.7 77.2 79.0
HMMT Nov 2025 89.1 89.2 87.5 87.5
HMMT Feb 2025 90.7 89.0 88.7 91.7
IMO AnswerBench 78.9 76.8 74.5 74.3

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).

Analyse : Sur AIME 2026, Qwen3.6-35B-A3B atteint 92.7, surpassant Gemma 4-31B (89.2) et Gemma 4-26B-A4B (88.3). C'est un score de niveau Claude Opus 4.6 sur ce benchmark. La progression par rapport à Qwen3.5-35B-A3B (91.0) montre une amélioration significative en mathématiques.

Vision & Multimodal (MMMU, MMBench, RefCOCO)

Qwen3.6-35B-A3B est un modèle multimodal natif avec encodeur vision intégré. Voici comment il se compare aux concurrents.

Benchmark Qwen3.6-35B-A3B Qwen3.5-35B-A3B Gemma 4-31B Gemma 4-26B-A4B Claude Sonnet 4.5 Claude Opus 4.6 GPT-5.4-high Gemini 3.1 Pro
MMMU 81.7 81.4 80.4 78.4 79.6 80.5
MMMU-Pro 75.3 75.1 76.9 73.8 68.4
MMBenchEN-DEV-v1.1 92.8 91.5 90.9 89.0 88.3
MathVista (mini) 86.4 86.2 79.3 79.4 79.8
RealWorldQA 85.3 84.1 72.3 72.2 70.3
RefCOCO (avg) 92.0 89.2
ODInW13 50.8 42.6
CharXiv (RQ) 78.0 77.5 67.9 69.0 67.2 68.7
CC-OCR 81.9 80.7 75.7 74.5 68.1
AI2D_TEST 92.7 92.6 89.0 88.3
VideoMME (w/ sub.) 86.6 86.6 81.1
VideoMME (w/o sub.) 82.5 82.5 75.3
VideoMMMU 83.7 80.4 81.6 76.0 77.6

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).

Analyse : Sur la vision, Qwen3.6-35B-A3B bat Gemma 4-31B sur MMMU (+1.3), RealWorldQA (+13.0), RefCOCO (+92.0 vs non-reporté), CC-OCR (+6.2), et AI2D_TEST (+3.7). Sur le multimodal vidéo (VideoMMMU), il bat aussi Gemma 4-31B (+2.1). Son encodeur vision natif lui donne un avantage significatif.

Agentic & Tool Use (MCPMark, Claw-Eval, TAU-Bench)

Benchmarks spécifiques aux capacités agentic : tool calling, navigation web, planification multi-étapes.

Benchmark Qwen3.6-35B-A3B Qwen3.5-35B-A3B Gemma 4-31B Gemma 4-26B-A4B Claude Opus 4.7 Claude Opus 4.6
MCPMark 37.0 27.0 18.1 14.2
MCP-Atlas 62.8 62.4 57.2 50.0 77.3 75.8
Claw-Eval Avg 68.7 65.4 48.5 58.8
Claw-Eval Pass^3 50.0 51.0 25.0 28.0
SkillsBench Avg5 28.7 4.4 23.6 12.3
QwenClawBench 52.6 47.7 41.7 38.7
TAU3-Bench 67.2 68.9 67.5 59.0
VITA-Bench 35.6 29.1 43.0 36.9
DeepPlanning 25.9 22.8 24.0 16.2
Tool Decathlon 26.9 28.7 21.2 12.0
WideSearch 60.1 59.1 35.2 38.3

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).

Analyse : Sur les benchmarks agentic, Qwen3.6-35B-A3B bat Gemma 4-31B sur MCPMark (+18.9 !), Claw-Eval Avg (+20.2), SkillsBench Avg5 (+5.1), QwenClawBench (+10.9), et WideSearch (+24.9). Le MCPMark de 37.0 est le plus élevé de tous les modèles sub-40B, prouvant son excellence en tool use agentic.

Résumé des comparaisons

Qwen3.6-35B-A3B est le modèle open-weight le plus performant de sa catégorie de taille (35B total, 3B actifs). Voici un résumé de ses forces par rapport aux concurrents directs :

Catégorie Qwen3.6-35B-A3B Meilleur concurrent sub-40B Écart
SWE-bench Verified 73.4 Gemma 4-31B (52.0) +21.4
SWE-bench Pro 49.5 Gemma 4-31B (35.7) +13.8
Terminal-Bench 2.0 51.5 Gemma 4-31B (42.9) +8.6
LiveCodeBench v6 80.4 Gemma 4-31B (80.0) +0.4
AIME 2026 92.7 Gemma 4-31B (89.2) +3.5
GPQA Diamond 86.0 Gemma 4-31B (84.3) +1.7
MMLU-Pro 85.2 Gemma 4-31B (85.2) égalité
MMMU 81.7 Gemma 4-31B (80.4) +1.3
MCPMark 37.0 Gemma 4-31B (18.1) +18.9
RealWorldQA 85.3 Gemma 4-31B (72.3) +13.0

Le verdict : Qwen3.6-35B-A3B bat systématiquement Gemma 4-31B (le concurrent dense le plus proche en taille) sur presque tous les benchmarks, avec des écarts massifs en coding (+21.4 sur SWE-bench) et agentic (+18.9 sur MCPMark). Par rapport aux modèles propriétaires (Claude Opus 4.7, GPT-5.4), il est en retard de 10-20 points sur SWE-bench, mais à un coût local avec une licence Apache 2.0.

Notes méthodologiques

Les benchmarks comparatifs ci-dessus agrègent des données de sources multiples. Il est important de noter que :

Sources : Consolidated LLM benchmarks · Lushbinary comparison · LM Market Cap Arena Elo · BenchLM · Vellum Open LLM Leaderboard · HF Model Card