JetBrains a publié Mellum2, un modèle de langage de 12B paramètres basé sur une architecture Mixture-of-Experts (MoE), entraîné ex nihilo sur des données de texte naturel et de code. Seuls 2.5B paramètres sont activés par token, ce qui permet une inférence rapide et économe en ressources.
Deux variants principaux :
<think>...</think> avant la réponse — pour le debugging complexe, la planification multi-étapes, les tâches mathématiques.| Paramètre | Valeur |
|---|---|
| Paramètres totaux | 12B |
| Paramètres actifs/token | 2.5B |
| Architecture | Mixture-of-Experts (MoE) — 64 experts, 8 activés |
| Couches | 28 |
| Taille cachée | 2304 |
| Contexte | 131,072 tokens |
| Sliding Window | 1,024 |
| Précision | BF16 |
| License | Apache 2.0 (Open Source) |
| Benchmark | Mellum2 | Qwen3.5 4B | Qwen3.5 9B | OLMo-3 7B | Ministral 3 14B | Seed-Coder 8B |
|---|---|---|---|---|---|---|
| LiveCodeBench v6 | 30.9 | 37.2 | 51.0 | 63.7 | 28.2 | 42.4 |
| EvalPlus | 76.2 | 78.4 | 69.4 | 71.8 | 67.3 | 74.1 |
| MultiPL-E | 64.6 | 67.1 | 51.0 | 67.1 | 36.1 | 77.0 |
| BFCL v4 | 31.8 | 44.2 | 52.0 | 60.6 | 19.8 | 38.8 |
| BFCL v3 | 43.1 | 66.3 | 64.1 | 70.5 | 41.9 | 52.7 |
| AIME (2025+2026) | 29.9 | 41.7 | 38.3 | 58.3 | 40.0 | 33.3 |
| GSM-Plus | 73.0 | 80.5 | 85.2 | 87.9 | 85.8 | 86.6 |
| MMLU-Redux | 77.4 | 78.1 | 87.5 | 91.1 | 71.8 | 85.9 |
| GPQA Diamond | 38.9 | 40.9 | 76.8 | 79.8 | 40.9 | 58.6 |
| IFEval | 69.3 | 75.8 | 82.1 | 83.9 | 83.2 | 67.3 |
| JetBrains pairwise | 66.7 | 68.1 | 60.6 | 77.8 | 44.4 | 72.4 |
| MixEval | 62.9 | 62.2 | 65.9 | 71.1 | 59.4 | 71.2 |
| BS-Bench | 24.0 | 18.0 | 56.9 | 61.0 | 22.0 | 9.0 |
| HarmBench (↓) | 8.4 | 23.1 | 20.3 | 20.9 | 14.7 | 56.5 |
| XSTest | 78.3 | 81.2 | 93.2 | 91.2 | 91.2 | 96.8 |
| Benchmark | Mellum2 | Qwen3.5 4B | Qwen3.5 9B | OLMo-3 7B | Ministral 3 14B |
|---|---|---|---|---|---|
| LiveCodeBench v6 | 75.1 | 69.9 | 59.4 | 68.3 | 59.8 |
| BFCL v4 | 38.8 | 45.6 | 42.9 | 42.7 | 35.9 |
| BFCL v3 | 60.5 | 69.4 | 73.9 | 68.5 | 52.2 |
| AIME (2025+2026) | 20.0 | 58.4 | 68.3 | 73.4 | 61.7 |
| GSM-Plus | 62.6 | 87.0 | 89.3 | 90.7 | 88.1 |
| MMLU-Redux | 84.8 | 86.2 | 88.3 | 91.7 | 71.3 |
| GPQA Diamond | 39.9 | 57.6 | 76.8 | 81.3 | 29.3 |
| IFEval | 69.1 | 76.5 | 87.1 | 89.8 | 84.7 |
| JetBrains pairwise | 64.4 | 69.5 | 40.5 | 56.7 | 63.8 |
| MixEval | 63.4 | 66.9 | 71.9 | 76.0 | 70.8 |
| BS-Bench | 14.0 | 15.0 | 63.0 | 70.0 | 23.0 |
| HarmBench (↓) | 12.2 | 20.6 | 15.9 | 6.6 | 48.7 |
| XSTest | 90.8 | 89.6 | 96.8 | 97.6 | 96.8 |
AIME = moyenne AIME 2025+2026 (30 questions/chacune). BFCL v4 = moyenne macro 5 sous-tâches. JetBrains pairwise = win rate vs Qwen2.5-7B-Instruct. HarmBench ↓ : plus bas = mieux. Source : pages HF des modèles.
JetBrains défend une vision de systèmes IA coordonnés plutôt que monolithiques. Mellum2 est conçu comme un \"focal model\" — un composant rapide et spécialisé pour les tâches à haute fréquence dans une stack IA plus large. Il ne vise pas à remplacer les grands modèles frontier, mais à rendre la stack plus rapide, moins chère et plus contrôlable.
Mellum2 est intéressant pour plusieurs raisons :