🔬 Les Petits LLM — Guide Complet 2026
Modèles de moins de 10B paramètres : benchmarks, comparaisons, perceptions communautaires et recommandations pour l'usage miniature
📌 Contexte : En 2026, la frontière entre les "petits" et les "gros" modèles s'est considérablement estompée. Des modèles de 0.8B à 9B offrent désormais des performances qui rivalisent avec des modèles 30B+ d'il y a un an. La question n'est plus si on peut les utiliser, mais lequel pour quel cas d'usage.
1. Panorama des petits LLM en 2026
🏷️ Ultra-tiny (sous 2B) — Pour l'edge, le mobile, l'IoT
| Modèle |
Params |
Actifs |
Vocabulaire |
Contexte |
RAM min (Q4) |
Spécificité |
| Qwen3.5-0.8B |
0.8B |
Dense |
200+ lang. |
262K |
< 2 Go |
Multimodal
Apache 2.0
|
| Qwen3-0.6B |
0.6B |
Dense |
— |
32K |
< 1 Go |
Ultra-léger
Apache 2.0
|
| Gemma 3 1B |
1B |
Dense |
— |
128K |
~1 Go |
Google
Apache 2.0
|
| Llama 3.2 1B |
1B |
Dense |
— |
128K |
~1 Go |
Meta
Llama
|
| Gemma-3n E2B |
~5B total |
~2B actif |
140+ lang. |
32K |
~1.5 Go |
Multimodal
Apache 2.0
|
| TinyLlama 1.1B |
1.1B |
Dense |
— |
2K |
~700 Mo |
IoT
Apache 2.0
|
🔧 Compact (2B-5B) — Le sweet spot pour l'usage local
| Modèle |
Params |
Actifs |
Contexte |
RAM min (Q4) |
Spécificité |
| Qwen3.5-2B |
2B |
Dense |
262K |
< 2 Go |
Multimodal
Apache 2.0
|
| Qwen3.5-4B |
4B |
Dense |
262K |
~3 Go |
Multimodal
Apache 2.0
|
| Qwen3-4B |
4B |
Dense |
32K |
~2.6 Go |
119 lang.
Apache 2.0
|
| Gemma 3 4B |
4B |
Dense |
128K |
~2.6 Go |
Vision+texte
Apache 2.0
|
| Phi-4 Mini |
3.8B |
Dense |
128K |
~2.5 Go |
Raisonnement
MIT
|
| SmolLM3-3B |
3B |
Dense |
32K |
~2 Go |
Transparent
Apache 2.0
|
| Mistral Ministral 3B |
3B |
Dense |
32K |
~2 Go |
Raisonnement
Apache 2.0
|
⚡ Compact MoE (2B-10B) — Performance maximale par paramètre actif
| Modèle |
Total |
Actifs |
Contexte |
RAM min |
Spécificité |
| LFM2.5-8B-A1B |
8.3B |
1.5B |
128K |
~3 Go |
MoE
Tool calling
Apache 2.0
|
| Gemma 4 E2B |
~2.3B eff. |
PLE |
128K |
~1.5 Go |
Mobile-first
Apache 2.0
|
| Gemma 4 E4B |
~4.5B eff. |
PLE |
128K |
~5 Go |
Edge
Apache 2.0
|
| Qwen3.5-9B |
9B |
Dense |
262K |
~6 Go |
Multimodal
Apache 2.0
|
2. Benchmarks comparatifs
2.1 Intelligence Index (Artificial Analysis)
🧠 Scores de raisonnement par taille (Intelligence Index — plus c'est haut, mieux c'est)
| Modèle |
Params |
AA-Omniscience |
IFEval |
IFBench |
MATH500 |
AIME25 |
| Qwen3.5-9B |
9B |
32 (IA Index) |
— |
— |
— |
— |
| Qwen3.5-4B |
4B |
27 (IA Index) |
87.80 |
50.38 |
80.76 |
54.28 |
| Qwen3.5-2B |
2B |
16 (IA Index) |
— |
— |
— |
— |
| Qwen3.5-0.8B |
0.8B |
9 (IA Index) |
— |
— |
— |
— |
| LFM2.5-8B-A1B |
8B/A1B |
-24.70 |
91.84 |
56.47 |
88.76 |
42.53 |
| Qwen3-4B |
4B |
-51.53 |
87.80 |
50.38 |
— |
— |
| Phi-4 Mini |
3.8B |
— |
— |
— |
80%+ |
— |
| SmolLM3-3B |
3B |
— |
— |
— |
— |
— |
| Ministral 3B |
3B |
— |
— |
— |
— |
— |
💡 Point clé : Qwen3.5-9B (score 32) double le score du modèle suivant sous 10B (Falcon-H1R-7B à 16). Qwen3.5-4B (score 27) surperforme tous les modèles sous 5B malgré ~2x moins de paramètres.
2.2 Performance d'inférence (TPS) — Source: AscentCore + benchmarks locaux
⚡ Tokens par seconde sur CPU (Q4_K_M) — plus c'est haut, mieux c'est
| Modèle |
TPS (CPU) |
TTFT (ms) |
ROUGE-L |
JSON Parse % |
JSON Schema % |
| Llama 3.2 1B |
226.5 |
171 |
0.390 |
65.2% |
30.4% |
| Gemma 3 1B |
163.5 |
234 |
0.388 |
82.6% |
4.3% |
| Qwen2.5 1.5B |
167.5 |
207 |
0.398 |
95.7% |
47.8% |
| SmolLM2 1.7B |
157.3 |
192 |
0.408 |
26.1% |
4.3% |
| Llama 3.2 3B |
98.7 |
316 |
0.436 |
47.8% |
34.8% |
| Gemma 3 4B |
71.6 |
452 |
0.427 |
100% |
87.0% |
| Qwen2.5 7B |
48.1 |
606 |
0.462 |
95.7% |
73.9% |
| Mistral 7B |
49.0 |
657 |
0.496 |
95.7% |
39.1% |
| Llama 3.1 8B |
46.6 |
641 |
0.447 |
91.3% |
91.3% |
⚠️ Note : Les benchmarks de qualité (ROUGE-L) montrent que Mistral 7B est le meilleur en qualité brute, mais Qwen2.5 7B offre le meilleur ratio qualité/vitesse. Pour les tâches JSON, Gemma 3 4B excelle avec 100% de parse rate et 87% de schema compliance.
2.3 Test de raisonnement (riddle "Sally's Brothers")
🧩 Capacité de raisonnement logique
| Modèle |
Résultat |
Commentaire |
| Qwen2.5 0.5B |
❌ Faux (5 sœurs) |
Trop petit pour le raisonnement |
| Qwen2.5 1.5B |
❌ Faux (5 sœurs) |
Toujours en dessous du seuil |
| Qwen2.5 3B |
❌ Faux (5 sœurs) |
Juste en dessous du seuil de raisonnement |
| Qwen2.5 7B |
❌ Faux (5 sœurs) |
Étonnamment, même le 7B échoue sur ce riddle |
| Qwen2.5 14B |
✅ Correct (1 sœur) |
Seuil de raisonnement franchi ici |
| Gemma 3 1B |
❌ Faux (2 sœurs) |
Ne passe pas le test |
| Gemma 3 4B |
✅ Correct (1 sœur) |
Passe le test de raisonnement |
| Ministral 3B |
✅ Correct (1 sœur) |
Le plus petit modèle à passer le test |
🔑 Insight : Le saut de raisonnement se produit entre 3B et 4B. Ministral 3B est le plus petit modèle à réussir ce test. En dessous de 3B, les modèles échouent systématiquement sur ce type de riddle logique.
2.4 Comparaison LFM2.5-8B-A1B vs concurrents (benchmarks Liquid AI)
📊 Benchmarks LFM2.5-8B-A1B (MoE 8B/1.5B actif)
| Benchmark |
LFM2.5-8B-A1B |
Qwen3.5-4B |
Qwen3-30B-A3B-Thinking |
Gemma-4-26B-A4B-IT |
gpt-oss-20b |
| AA-Omniscience |
-24.70 |
-51.53 |
-51.31 |
-62.07 |
-49.17 |
| IFEval |
91.84 |
87.80 |
90.82 |
91.40 |
86.73 |
| IFBench |
56.47 |
50.38 |
51.11 |
47.25 |
58.64 |
| Multi-IF |
79.93 |
67.43 |
79.04 |
82.06 |
76.64 |
| MATH500 |
88.76 |
80.76 |
86.48 |
94.20 |
92.40 |
| AIME25 |
42.53 |
54.28 |
71.67 |
68.67 |
68.53 |
| BFCLv3 (Tool calling) |
64.79 |
71.06 |
73.39 |
68.87 |
62.52 |
| BFCLv4 (Tool calling) |
49.73 |
54.01 |
50.53 |
55.87 |
49.88 |
| Tau² Telecom |
88.07 |
87.72 |
21.93 |
42.11 |
57.24 |
💡 Analyse LFM2.5 : Malgré seulement 1.5B paramètres actifs, le LFM2.5-8B-A1B surperforme Qwen3.5-4B (4B dense) sur IFEval et Multi-IF, et rivalise avec des modèles 30B+ sur de nombreux benchmarks. Son point fort est le tool calling et l'agentic work. Il excelle particulièrement sur Tau² Telecom (88.07 vs 87.72 pour Qwen3.5-9B, et 21.93 pour Qwen3-30B !).
3. Zoom : La famille Qwen3.5 Small (0.8B → 9B)
🏆 Qwen3.5-9B : Le "Giant Killer"
Le Qwen3.5-9B est le modèle dense sous 10B le plus intelligent en 2026. Il correspond ou dépasse gpt-oss-120B sur plusieurs benchmarks malgré un facteur 13x moins de paramètres.
- MMLU : à 2 points de gpt-oss-120B
- HumanEval (code) : 78% de passages
- GSM8K (math) : 85% de réponses correctes
- MMMU-Pro (multimodal) : 69.2%
- Intelligence Index : 32 (double le suivant sous 10B)
⚖️ Qwen3.5-4B : Le performant équilibré
À 4B paramètres, le modèle commence à se comporter comme un "vrai" LLM. Il gère le chain-of-thought avec compétence et la génération de code Python fonctionne bien.
- Intelligence Index : 27 (+9 points vs Qwen3 4B)
- MMMU-Pro : 65.4%
- RAM (Q4) : ~3 Go
- Hallucination : 80% (AA-Omniscience: -57)
📱 Qwen3.5-2B : Le sweet spot pour les apps simples
- Intelligence Index : 16 (équivalent Falcon-H1R-7B à 7B)
- RAM (Q4) : < 2 Go
- Idéal pour : classification, extraction, routing, JSON structuré
- Adhérence JSON : meilleure que certains modèles 7B de l'an dernier
🔋 Qwen3.5-0.8B : Pour l'edge pur
- Intelligence Index : 9 (+2.5 vs Qwen3 0.6B)
- RAM (Q4) : < 1 Go
- TPS sur CPU : ~80 tokens/sec
- MMMU-Pro : 25.8% (remarquable pour un sous-1B)
- Attention : modes "thinking" peuvent boucler ; nécessite des guardrails
3.1 Évolution Qwen3 → Qwen3.5 par taille
| Modèle Qwen3 |
Params |
IA Index |
→ Qwen3.5 |
Params |
IA Index |
Gain |
| Qwen3 0.6B |
0.6B |
6.5 |
Qwen3.5 0.8B |
0.8B |
9 |
+2.5 |
| Qwen3 1.7B |
1.7B |
13 |
Qwen3.5 2B |
2B |
16 |
+3 |
| Qwen3 4B |
4B |
18 |
Qwen3.5 4B |
4B |
27 |
+9 |
| Qwen3 VL 8B |
8B |
17 |
Qwen3.5 9B |
9B |
32 |
+15 |
4. Zoom : LFM2.5-8B-A1B (Liquid AI)
🧬 Architecture MoE : Le secret de la performance par paramètre actif
LFM2.5-8B-A1B est un modèle MoE (Mixture of Experts) de 8.3B paramètres totaux qui n'active que 1.5B paramètres par token. Cette sparsité est ce qui permet l'exécution sur hardware grand public.
Améliorations par rapport à LFM2-8B-A1B (Oct 2025) :
- Contexte étendu de 32K → 128K tokens
- Pré-training : 12T → 38T tokens
- Vocabulaire doublé : 65K → 128K (meilleur pour non-Latin)
- RL large-scale pour tool calling et instruction following
- Chaîne de pensée explicite (reasoning-only)
- Réduction des "doom loops" (boucles de raisonnement infinies)
- Réduction des hallucinations via reward avg@k
📈 Amélioration LFM2 → LFM2.5
| Métrique |
LFM2-8B-A1B |
LFM2.5-8B-A1B |
Gain |
| AA-Omniscience | -78.42 | -24.70 | +53.62 |
| AA Accuracy | 7.33 | 8.67 | +1.34 |
| Non-Hallucination Rate | 7.46 | 63.47 | +56.02 |
| IFEval | 79.44 | 91.84 | +12.40 |
| IFBench | 26.00 | 56.47 | +30.47 |
| MATH500 | 74.80 | 88.76 | +13.96 |
| AIME25 | 20.00 | 42.53 | +22.53 |
| BFCLv3 | 45.07 | 64.36 | +19.29 |
⚠️ Limites de LFM2.5 : C'est un modèle reasoning-only (pas de mode direct). Les distillations affaiblissent les garde-fous de sécurité. Test indépendant montre une haute vulnérabilité aux prompts adversariaux. SortOutputs répétitifs si temperature n'est pas entre 0.5 et 0.7.
5. Zoom : Gemma 4 (Google DeepMind)
📐 Les 4 tailles de Gemma 4
| Modèle |
Params eff. |
Architecture |
Contexte |
RAM min (Q4) |
Cible |
| Gemma 4 E2B |
~2.3B |
PLE |
128K |
~1.5 Go |
Smartphones, IoT, Raspberry Pi |
| Gemma 4 E4B |
~4.5B |
PLE |
128K |
~5 Go |
Mobile, edge, laptops |
| Gemma 4 26B A4B |
3.8B actifs |
MoE (128 experts, 8/token) |
256K |
14-18 Go |
RTX 3090/4090, Mac |
| Gemma 4 31B Dense |
30.7B |
Dense |
256K |
~20 Go |
Max quality, research |
💡 Gemma 4 E2B : Utilise les Per-Layer Embeddings (PLE) pour donner une profondeur représentationnelle de modèle beaucoup plus large avec une empreinte mémoire de ~2B. C'est l'alternative directe de Google au LFM2.5-8B-A1B de Liquid AI.
6. Perception communautaire (r/LocalLLaMA, Reddit, etc.)
6.1 Top modèles par tâche selon la communauté
| Tâche |
Modèle #1 |
Runner-up |
Notes |
| Chat général |
Llama 3.3 70B |
Llama 3.1 8B |
Dépend de la taille disponible |
| Coding |
Qwen Coder 32B / DeepSeek Coder |
Llama 3.1 8B |
Modèles spécialisés gagnent |
| Multilingue |
Qwen 2.5 / Qwen3 |
Llama 3.1 8B |
Qwen entraîné sur + de langues |
| Low hardware (4GB) |
Phi-3 mini / Llama 3.2 3B |
Mistral 7B |
Petit mais capable |
| Raisonnement |
DeepSeek R1 (distillé) |
Llama 3.3 70B |
DeepSeek a créé le plus d'excitation en 2024-25 |
6.2 Motivations principales pour l'IA locale (communauté Reddit)
| Motivation |
Prévalence |
Cible |
| 🔒 Confidentialité | Très haute | Documents sensibles, contrats, médical |
| 💰 Coût (pas d'abonnement) | Haute | Développeurs, usage intensif |
| 🚫 Pas de rate limits | Haute | Recherche, pipelines automatisés |
| 📴 Offline / air-gapped | Moyenne | Environnements sécurisés |
| 🔧 Customisation (fine-tuning) | Moyenne | Recherche, applications spécialisées |
6.3 Stack recommandée par la communauté
| Outil |
Rôle |
Pour qui |
| Ollama | Runner + API | Tous |
| Open WebUI | Interface browser | Users ChatGPT-like |
| LM Studio | GUI tout-en-un | Débutants, Mac |
| Jan.ai | App privacy-first | Users polishés |
| AnythingLLM | RAG + chat | Docs perso |
6.4 Hardware minimum recommandé
| VRAM |
Modèle max |
Vitesse typique |
Expérience |
| 4 GB | Llama 3.2 3B (Q4) | 10-15 tok/s | Utilisable pour basique |
| 6 GB | Llama 3.1 8B (Q4) | 20-25 tok/s | Bon pour la plupart |
| 8 GB | Llama 3.1 8B (Q8) | 40-55 tok/s | Fluide, recommandé |
| 12-16 GB | Llama 3.1 8B + ControlNet | 55+ tok/s | Qualité professionnelle |
| 24 GB | Llama 3.3 70B (Q4) | 15-25 tok/s | Excellente qualité |
💡 Communauté Mac : Apple Silicon est l'architecture préférée de la communauté pour l'IA locale. Le Mac Mini M4 gère des modèles bien plus grands que les PC équivalents grâce à l'Unified Memory Architecture. Le rapport qualité/prix est "imbattable pour les LLMs locaux".
7. Recommandations par cas d'usage
| Cas d'usage |
Modèle recommandé |
Pourquoi |
RAM min |
| Edge / Mobile / Raspberry Pi |
Qwen3.5-0.8B |
Le plus petit multimodal, 262K contexte, 80 TPS sur CPU |
< 1 Go |
| Mobile léger |
Gemma 4 E2B |
PLE, ~2.3B eff, mobile-first, multimodal |
~1.5 Go |
| Sweet spot local (qualité/poids) |
Qwen3.5-4B |
IA Index 27, multimodal, 3 Go RAM, Apache 2.0 |
~3 Go |
| Meilleur sous 10B |
Qwen3.5-9B |
Égal gpt-oss-120B, IA Index 32, 6 Go RAM |
~6 Go |
| Tool calling / Agentic |
LFM2.5-8B-A1B |
MoE 8B/1.5B actif, IFEval 91.84, Tau² Telecom 88 |
~3 Go |
| Raisonnement pur |
Phi-4 Mini |
MATH 80%+, raisonnement > modèles 70B |
~2.5 Go |
| Qualité brute (7B) |
Mistral 7B |
ROUGE-L 0.509, le meilleur en qualité |
~4 Go |
| JSON strict |
Llama 3.1 8B |
Schema compliance 95.7%, parse 100% |
~4.7 Go |
| JSON + vitesse |
Qwen2.5-1.5B |
95.7% JSON parse, 56.5% schema, 167 TPS |
~1 Go |
| 1B ultra-rapide |
Llama 3.2 1B |
226 TPS (le plus rapide), 128K contexte |
~1 Go |
| Transparent / Open training |
SmolLM3-3B |
Données d'entraînement 100% open, 3B le plus petit à passer le test de raisonnement |
~2 Go |
| Minimaliste |
Qwen3-0.6B |
0.6B, 32K contexte, le plus petit Qwen |
< 1 Go |
8. Synthèse et conclusion
🏅 Top 3 par catégorie
| Critère |
Modèle |
Score / Note |
| 🧠 Plus intelligent sous 10B | Qwen3.5-9B | IA Index 32 |
| ⚡ Plus rapide (CPU) | Llama 3.2 1B | 226 TPS |
| 🔧 Meilleur ratio qualité/poids | Qwen3.5-4B | IA Index 27, 3 Go RAM |
| 🛠️ Meilleur tool calling | LFM2.5-8B-A1B | BFCLv3 64.79, Tau² Telecom 88 |
| 🎯 Plus petit fonctionnel | Qwen3.5-0.8B | IA Index 9, multimodal |
| 📐 Plus petit avec PLE | Gemma 4 E2B | ~2.3B eff, 1.5 Go RAM |
| 🧩 Raisonnement minimal | Ministral 3B | Seul modèle < 4B à passer le riddle |
| 💎 Meilleur JSON | Gemma 3 4B | 100% parse, 87% schema |
📊 Conclusion : Qwen domine clairement la catégorie des petits modèles denses avec sa famille Qwen3.5 (0.8B → 9B). Si tu cherches à étendre ta vue, LFM2.5-8B-A1B de Liquid AI est fascinant : un MoE avec 1.5B actifs qui rivalise avec des modèles 30B+. Gemma 4 E2B de Google est son concurrent direct en mobile-first. Pour l'ultra-léger, Qwen3.5-0.8B est le plus petit multimodal viable. Le sweet spot pour un usage miniature équilibré est Qwen3.5-4B (qualité, 3 Go RAM, multimodal, Apache 2.0).