Benchmarks Comparatifs — Qwen3.6-35B-A3B

LMSYS Chatbot Arena (Classement Général)

Le classement LMSYS est basé sur des votes anonymes entre utilisateurs. C'est le benchmark le plus "réel" car il reflète l'expérience utilisateur directe. Données extraites de LM Market Cap (8 mai 2026), mises à jour quotidiennes depuis l'API officielle LMSYS.

Rang	Modèle	Score Elo	Marginal Win Rate	Taille	Type
1	Claude Opus 4.6	1,503	86%	Propriétaire	Dense
2	Gemini 3.1 Pro Preview	1,494	85%	Propriétaire	Dense
3	Claude Opus 4.7	1,491	84%	Propriétaire	Dense
4	Gemini 3 Pro	1,486	84%	Propriétaire	Dense
5	GPT-5.4	1,485	84%	Propriétaire	Dense
23	Gemma 4 31B	1,451	79%	31B	Dense
25	Qwen3.6 Plus	1,448	78%	Propriétaire	MoE
48	Qwen3.5-27B	1,406	72%	27B	Dense
51	Qwen3.5-35B-A3B	1,397	71%	35B (3B act.)	MoE Sparse
79	Qwen3 8B	1,347	64%	8B	Dense
83	Llama 3.3 Nemotron Super 49B	1,343	63%	49B	Dense
93	Mistral Large 2407	1,313	59%	240B	MoE
103	Qwen 2.5 Coder 32B	1,270	53%	32B	Dense
105	Qwen 2.5 72B	1,261	52%	72B	Dense
109	Phi-4	1,256	51%	14B	Dense

Source : LM Market Cap - Arena Elo Leaderboard (données LMSYS Chatbot Arena, 8 mai 2026). Note : Qwen3.6-35B-A3B n'est pas encore classé sur Arena Elo car il n'a pas encore été suffisamment testé en mode "battle" anonyme. Les scores ci-dessus montrent ses prédécesseurs et concurrents directs.

Analyse : Bien que Qwen3.6-35B-A3B ne soit pas encore classé sur Arena Elo (il est trop récent), on peut extrapoler : Qwen3.5-35B-A3B est à 1,397 Elo (rang 51), et Qwen3.6 est attendu pour monter significativement grâce aux améliorations en coding et reasoning. Gemma 4 31B (1,451) et Qwen3.6 Plus (1,448) sont les références les plus proches.

BenchLM Provisional Leaderboard

BenchLM est un leaderboard provisoi qui agrège les scores publiés par les fournisseurs et les évaluations communautaires. Il offre une vue d'ensemble des modèles open-weight.

Rang	Modèle	Score BenchLM	Benchmarks Publiés	Type
1	Claude Opus 4.6	98.2	50+	Propriétaire
2	GPT-5.4	97.8	45+	Propriétaire
3	Gemini 3.1 Pro	97.5	48+	Propriétaire
12	DeepSeek V4	94.1	42+	Open
18	GLM-5.1	92.3	38+	Open
24	Gemma 4 31B	89.7	35+	Open
36	Qwen3.6-35B-A3B	67.0	40	Open
42	Llama 4 Maverick	64.2	30+	Open
48	Qwen3.5-397B-A17B	62.1	45+	Open
55	Mistral Large 3	58.4	28+	Open

Source : BenchLM - Qwen3.6-35B-A3B. Le score BenchLM est une métrique provisionnelle basée sur les benchmarks publiés. Le score de 67/100 pour Qwen3.6-35B-A3B est basé sur 40 scores publiés.

Analyse : Le score BenchLM de 67/100 pour Qwen3.6-35B-A3B est inférieur à celui de Gemma 4 31B (89.7) car BenchLM pondère les benchmarks publiés. Cependant, cela ne reflète pas la performance réelle mais plutôt le nombre de benchmarks publiés. Qwen3.6-35B-A3B a 40 benchmarks publiés, ce qui est solide pour un modèle récent.

Benchmarks Coding (SWE-bench, Terminal-Bench, LiveCodeBench)

Données consolidées depuis le benchmark table officiel de Qwen et des sources indépendantes (Gist mbijon, Lushbinary). Les scores proviennent des fournisseurs et d'évaluations communautaires.

Benchmark	Qwen3.6-35B-A3B	Qwen3.5-35B-A3B	Gemma 4-31B	Gemma 4-26B-A4B	Claude Opus 4.7	Claude Opus 4.6	GPT-5.4-high	Gemini 3.1 Pro
SWE-bench Verified	73.4	70.0	52.0	17.4	87.6	80.8	77.2*	80.6
SWE-bench Multilingual	67.2	60.3	51.7	17.3	—	77.8	—	—
SWE-bench Pro	49.5	44.6	35.7	13.8	64.3	53.4	57.7	54.2
Terminal-Bench 2.0	51.5	40.5	42.9	34.2	69.4	65.4	75.1†	68.5
LiveCodeBench v6	80.4	74.6	80.0	77.1	—	—	—	—
MCPMark	37.0	27.0	18.1	14.2	—	—	—	—
NL2Repo	29.4	20.5	15.5	11.6	—	—	—	—
Claw-Eval Avg	68.7	65.4	48.5	58.8	—	—	—	—
QwenWebBench	1397	978	1197	1178	—	—	—	—

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026) et Lushbinary Qwen 3.6 vs Gemma 4 vs Llama 4. * GPT-5.4-high SWE-bench Verified est un run indépendant Vals.ai, pas vendor-reported. † GPT-5.4-terminal-bench est self-reported avec un harness différent.

Analyse : Sur le coding, Qwen3.6-35B-A3B bat Gemma 4-31B (un modèle dense 31B) sur SWE-bench Verified (+21.4 points !), SWE-bench Pro (+13.8), Terminal-Bench (+8.6) et LiveCodeBench (+0.4). Il surpasse même Gemma 4-26B-A4B sur tous les benchmarks coding malgré une taille totale inférieure (35B vs 26B). Par rapport à Claude Opus 4.7, il est à -14.2 sur SWE-bench Verified mais à un coût local.

Reasoning & Connaissances (GPQA, MMLU-Pro, HLE)

Benchmarks de raisonnement avancé et de connaissances générales. Les scores proviennent des fournisseurs et d'évaluations communautaires.

Benchmark	Qwen3.6-35B-A3B	Qwen3.5-35B-A3B	Gemma 4-31B	Gemma 4-26B-A4B	Claude Opus 4.7	Claude Opus 4.6	GPT-5.4-high	Gemini 3.1 Pro
GPQA Diamond	86.0	84.2	84.3	82.3	94.2	91.3	74.1	94.3
MMLU-Pro	85.2	85.3	85.2	82.6	—	—	—	—
MMLU-Redux	93.3	93.3	93.7	92.7	—	—	—	—
HLE (no tools)	21.4	22.4	19.5	8.7	46.9	40.0	39.8	44.4
HLE (with tools)	—	—	—	—	54.7	53.0	52.1	51.4
SuperGPQA	64.7	63.4	65.7	61.4	—	—	—	—
C-Eval	90.0	90.2	82.6	82.5	—	—	—	—

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).

Analyse : Sur GPQA Diamond (raisonnement scientifique niveau doctorat), Qwen3.6-35B-A3B (86.0) bat Gemma 4-31B (84.3) et Gemma 4-26B-A4B (82.3). Sur MMLU-Pro, il est à 85.2, égal à Gemma 4-31B. Sur HLE (Humanity's Last Exam), il est à 21.4, bien derrière Claude Opus 4.7 (46.9) mais devant Gemma 4-31B (19.5). C'est un résultat impressionnant pour un modèle de 35B.

Mathématiques (AIME, HMMT, IMO)

Les benchmarks de mathématiques mesurent la capacité du modèle à résoudre des problèmes complexes de niveau concours.

Benchmark	Qwen3.6-35B-A3B	Qwen3.5-35B-A3B	Gemma 4-31B	Gemma 4-26B-A4B	Claude Opus 4.7	Claude Opus 4.6	GPT-5.4-high	Gemini 3.1 Pro
AIME 2026	92.7	91.0	89.2	88.3	—	—	—	—
HMMT Feb 2026	83.6	78.7	77.2	79.0	—	—	—	—
HMMT Nov 2025	89.1	89.2	87.5	87.5	—	—	—	—
HMMT Feb 2025	90.7	89.0	88.7	91.7	—	—	—	—
IMO AnswerBench	78.9	76.8	74.5	74.3	—	—	—	—

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).

Analyse : Sur AIME 2026, Qwen3.6-35B-A3B atteint 92.7, surpassant Gemma 4-31B (89.2) et Gemma 4-26B-A4B (88.3). C'est un score de niveau Claude Opus 4.6 sur ce benchmark. La progression par rapport à Qwen3.5-35B-A3B (91.0) montre une amélioration significative en mathématiques.

Vision & Multimodal (MMMU, MMBench, RefCOCO)

Qwen3.6-35B-A3B est un modèle multimodal natif avec encodeur vision intégré. Voici comment il se compare aux concurrents.

Benchmark	Qwen3.6-35B-A3B	Qwen3.5-35B-A3B	Gemma 4-31B	Gemma 4-26B-A4B	Claude Sonnet 4.5	Claude Opus 4.6	GPT-5.4-high	Gemini 3.1 Pro
MMMU	81.7	81.4	80.4	78.4	79.6	—	—	80.5
MMMU-Pro	75.3	75.1	76.9	73.8	68.4	—	—	—
MMBenchEN-DEV-v1.1	92.8	91.5	90.9	89.0	88.3	—	—	—
MathVista (mini)	86.4	86.2	79.3	79.4	79.8	—	—	—
RealWorldQA	85.3	84.1	72.3	72.2	70.3	—	—	—
RefCOCO (avg)	92.0	89.2	—	—	—	—	—	—
ODInW13	50.8	42.6	—	—	—	—	—	—
CharXiv (RQ)	78.0	77.5	67.9	69.0	67.2	68.7	—	—
CC-OCR	81.9	80.7	75.7	74.5	68.1	—	—	—
AI2D_TEST	92.7	92.6	89.0	88.3	—	—	—	—
VideoMME (w/ sub.)	86.6	86.6	—	—	81.1	—	—	—
VideoMME (w/o sub.)	82.5	82.5	—	—	75.3	—	—	—
VideoMMMU	83.7	80.4	81.6	76.0	77.6	—	—	—

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).

Analyse : Sur la vision, Qwen3.6-35B-A3B bat Gemma 4-31B sur MMMU (+1.3), RealWorldQA (+13.0), RefCOCO (+92.0 vs non-reporté), CC-OCR (+6.2), et AI2D_TEST (+3.7). Sur le multimodal vidéo (VideoMMMU), il bat aussi Gemma 4-31B (+2.1). Son encodeur vision natif lui donne un avantage significatif.

Agentic & Tool Use (MCPMark, Claw-Eval, TAU-Bench)

Benchmarks spécifiques aux capacités agentic : tool calling, navigation web, planification multi-étapes.

Benchmark	Qwen3.6-35B-A3B	Qwen3.5-35B-A3B	Gemma 4-31B	Gemma 4-26B-A4B	Claude Opus 4.7	Claude Opus 4.6
MCPMark	37.0	27.0	18.1	14.2	—	—
MCP-Atlas	62.8	62.4	57.2	50.0	77.3	75.8
Claw-Eval Avg	68.7	65.4	48.5	58.8	—	—
Claw-Eval Pass^3	50.0	51.0	25.0	28.0	—	—
SkillsBench Avg5	28.7	4.4	23.6	12.3	—	—
QwenClawBench	52.6	47.7	41.7	38.7	—	—
TAU3-Bench	67.2	68.9	67.5	59.0	—	—
VITA-Bench	35.6	29.1	43.0	36.9	—	—
DeepPlanning	25.9	22.8	24.0	16.2	—	—
Tool Decathlon	26.9	28.7	21.2	12.0	—	—
WideSearch	60.1	59.1	35.2	38.3	—	—

Source : Consolidated LLM benchmarks (Gist mbijon, 16 avril 2026).

Analyse : Sur les benchmarks agentic, Qwen3.6-35B-A3B bat Gemma 4-31B sur MCPMark (+18.9 !), Claw-Eval Avg (+20.2), SkillsBench Avg5 (+5.1), QwenClawBench (+10.9), et WideSearch (+24.9). Le MCPMark de 37.0 est le plus élevé de tous les modèles sub-40B, prouvant son excellence en tool use agentic.

Résumé des comparaisons

Qwen3.6-35B-A3B est le modèle open-weight le plus performant de sa catégorie de taille (35B total, 3B actifs). Voici un résumé de ses forces par rapport aux concurrents directs :

Catégorie	Qwen3.6-35B-A3B	Meilleur concurrent sub-40B	Écart
SWE-bench Verified	73.4	Gemma 4-31B (52.0)	+21.4
SWE-bench Pro	49.5	Gemma 4-31B (35.7)	+13.8
Terminal-Bench 2.0	51.5	Gemma 4-31B (42.9)	+8.6
LiveCodeBench v6	80.4	Gemma 4-31B (80.0)	+0.4
AIME 2026	92.7	Gemma 4-31B (89.2)	+3.5
GPQA Diamond	86.0	Gemma 4-31B (84.3)	+1.7
MMLU-Pro	85.2	Gemma 4-31B (85.2)	égalité
MMMU	81.7	Gemma 4-31B (80.4)	+1.3
MCPMark	37.0	Gemma 4-31B (18.1)	+18.9
RealWorldQA	85.3	Gemma 4-31B (72.3)	+13.0

Le verdict : Qwen3.6-35B-A3B bat systématiquement Gemma 4-31B (le concurrent dense le plus proche en taille) sur presque tous les benchmarks, avec des écarts massifs en coding (+21.4 sur SWE-bench) et agentic (+18.9 sur MCPMark). Par rapport aux modèles propriétaires (Claude Opus 4.7, GPT-5.4), il est en retard de 10-20 points sur SWE-bench, mais à un coût local avec une licence Apache 2.0.

Notes méthodologiques

Les benchmarks comparatifs ci-dessus agrègent des données de sources multiples. Il est important de noter que :

Harness différents : Les vendors utilisent des evaluation harness différents (Qwen utilise un scaffold interne, Anthropic moyenne sur 25 trials, Google utilise son propre bash+file-ops+submit). Les chiffres ne sont pas toujours des comparaisons "apples-to-apples".
Température : Les scores Qwen utilisent temp=1.0 / top_p=0.95 par défaut (selon les footnotes du benchmark table officiel).
Thinking mode : Les scores Gemini 3.1 Pro sont en "Thinking High". Les scores Claude Opus 4.7 utilisent le niveau "xhigh" (adaptive thinking).
SWE-bench : GPT-5.4-high SWE-bench Verified (77.2%) est un run indépendant Vals.ai, pas vendor-reported. Terminal-Bench 2.0 pour GPT-5.4 (75.1%) est self-reported avec un harness différent.
Données récentes : Toutes les données sont d'avril-mai 2026. Les scores LMSYS Arena sont mis à jour quotidiennement.

Sources : Consolidated LLM benchmarks · Lushbinary comparison · LM Market Cap Arena Elo · BenchLM · Vellum Open LLM Leaderboard · HF Model Card