Mellum2 — Le nouveau modèle MoE de JetBrains

Rapport mis à jour le 18-06-2026 · Benchmarks : Hugging Face (JetBrains/Mellum2-12B-A2.5B-Instruct & Mellum2-12B-A2.5B-Thinking)

📋 Vue d'ensemble

JetBrains a publié Mellum2, un modèle de langage de 12B paramètres basé sur une architecture Mixture-of-Experts (MoE), entraîné ex nihilo sur des données de texte naturel et de code. Seuls 2.5B paramètres sont activés par token, ce qui permet une inférence rapide et économe en ressources.

Deux variants principaux :

Instruct : réponses directes, sans chaîne de pensée explicite — idéal pour chat interactif, assistance code, tool use.
Thinking : raisonnement explicite dans des blocs <think>...</think> avant la réponse — pour le debugging complexe, la planification multi-étapes, les tâches mathématiques.

🔧 Architecture & Performance

Paramètre	Valeur
Paramètres totaux	12B
Paramètres actifs/token	2.5B
Architecture	Mixture-of-Experts (MoE) — 64 experts, 8 activés
Couches	28
Taille cachée	2304
Contexte	131,072 tokens
Sliding Window	1,024
Précision	BF16
License	Apache 2.0 (Open Source)

📊 Benchmarks (auto-rapportés par JetBrains)

📝 Mellum2 Instruct

Benchmark	Mellum2	Qwen3.5 4B	Qwen3.5 9B	OLMo-3 7B	Ministral 3 14B	Seed-Coder 8B
LiveCodeBench v6	30.9	37.2	51.0	63.7	28.2	42.4
EvalPlus	76.2	78.4	69.4	71.8	67.3	74.1
MultiPL-E	64.6	67.1	51.0	67.1	36.1	77.0
BFCL v4	31.8	44.2	52.0	60.6	19.8	38.8
BFCL v3	43.1	66.3	64.1	70.5	41.9	52.7
AIME (2025+2026)	29.9	41.7	38.3	58.3	40.0	33.3
GSM-Plus	73.0	80.5	85.2	87.9	85.8	86.6
MMLU-Redux	77.4	78.1	87.5	91.1	71.8	85.9
GPQA Diamond	38.9	40.9	76.8	79.8	40.9	58.6
IFEval	69.3	75.8	82.1	83.9	83.2	67.3
JetBrains pairwise	66.7	68.1	60.6	77.8	44.4	72.4
MixEval	62.9	62.2	65.9	71.1	59.4	71.2
BS-Bench	24.0	18.0	56.9	61.0	22.0	9.0
HarmBench (↓)	8.4	23.1	20.3	20.9	14.7	56.5
XSTest	78.3	81.2	93.2	91.2	91.2	96.8

🧠 Mellum2 Thinking

Benchmark	Mellum2	Qwen3.5 4B	Qwen3.5 9B	OLMo-3 7B	Ministral 3 14B
LiveCodeBench v6	75.1	69.9	59.4	68.3	59.8
BFCL v4	38.8	45.6	42.9	42.7	35.9
BFCL v3	60.5	69.4	73.9	68.5	52.2
AIME (2025+2026)	20.0	58.4	68.3	73.4	61.7
GSM-Plus	62.6	87.0	89.3	90.7	88.1
MMLU-Redux	84.8	86.2	88.3	91.7	71.3
GPQA Diamond	39.9	57.6	76.8	81.3	29.3
IFEval	69.1	76.5	87.1	89.8	84.7
JetBrains pairwise	64.4	69.5	40.5	56.7	63.8
MixEval	63.4	66.9	71.9	76.0	70.8
BS-Bench	14.0	15.0	63.0	70.0	23.0
HarmBench (↓)	12.2	20.6	15.9	6.6	48.7
XSTest	90.8	89.6	96.8	97.6	96.8

AIME = moyenne AIME 2025+2026 (30 questions/chacune). BFCL v4 = moyenne macro 5 sous-tâches. JetBrains pairwise = win rate vs Qwen2.5-7B-Instruct. HarmBench ↓ : plus bas = mieux. Source : pages HF des modèles.

🎯 Points clés

Mellum2 Thinking bat Qwen3.5 4B sur LiveCodeBench (75.1 vs 69.9) — excellent pour le code, même si le modèle est MoE et que les variants Thinking tirent parti du raisonnement explicite.
MMLU-Redux à 84.8 (Thinking) — proche de Qwen3.5 9B (88.3) pour un modèle MoE à 12B total.
Tool use : BFCL v3 à 60.5 (Thinking) — correct mais en retrait face à Qwen3.5 9B (73.9).
Safety : HarmBench à 12.2 (Thinking) — plus de réponses dangereuses que le variant Instruct (8.4), ce qui est attendu (le raisonnement explicite peut exposer des chemins problématiques).
XSTest à 90.8 (Thinking) — bon refus des prompts toxiques, proche des meilleurs modèles de la famille.

💡 Philosophie : le \"Focal Model\"

JetBrains défend une vision de systèmes IA coordonnés plutôt que monolithiques. Mellum2 est conçu comme un \"focal model\" — un composant rapide et spécialisé pour les tâches à haute fréquence dans une stack IA plus large. Il ne vise pas à remplacer les grands modèles frontier, mais à rendre la stack plus rapide, moins chère et plus contrôlable.

📦 Disponibilité

Modèles sur Hugging Face (collection Mellum 2)
Poids GGUF disponibles (quantisés)
Rapport technique : arXiv:2605.31268
Blog officiel : blog.jetbrains.com/ai

🤔 Analyse d'Alfred

Mellum2 est intéressant pour plusieurs raisons :

Apache 2.0 : licence permissive, usage commercial libre — gros avantage.
MoE à 12B/2.5B : ratio actif/total excellent. Sur ta T1000 4Go, l'inference brute sera difficile, mais les GGUF quantisés (Q4/Q5) pourraient tourner en CPU.
Thinking variant sur LiveCodeBench à 75.1 : c'est le point fort. Pour du code assisté, le variant Thinking est clairement supérieur au variant Instruct (30.9 vs 75.1) — le raisonnement explicite fait une vraie différence.
Moins bon en tool use (BFCL v4 ~38.8) : en retrait face à Qwen3.5 9B (52.0 Instruct / 42.9 Thinking). À surveiller.
Pour ton cluster Pi 5 x3 + AI HAT+ : à tester en priorité avec LM Studio (tu le préfères à Ollama). Les quantisations GGUF seront le point d'entrée.