🔬 Les Petits LLM — Guide Complet 2026

Modèles de moins de 10B paramètres : benchmarks, comparaisons, perceptions communautaires et recommandations pour l'usage miniature

    📌 Contexte : En 2026, la frontière entre les "petits" et les "gros" modèles s'est considérablement estompée. Des modèles de 0.8B à 9B offrent désormais des performances qui rivalisent avec des modèles 30B+ d'il y a un an. La question n'est plus si on peut les utiliser, mais lequel pour quel cas d'usage.

1. Panorama des petits LLM en 2026

🏷️ Ultra-tiny (sous 2B) — Pour l'edge, le mobile, l'IoT

Modèle	Params	Actifs	Vocabulaire	Contexte	RAM min (Q4)	Spécificité
Qwen3.5-0.8B	0.8B	Dense	200+ lang.	262K	< 2 Go	Multimodal Apache 2.0
Qwen3-0.6B	0.6B	Dense	—	32K	< 1 Go	Ultra-léger Apache 2.0
Gemma 3 1B	1B	Dense	—	128K	~1 Go	Google Apache 2.0
Llama 3.2 1B	1B	Dense	—	128K	~1 Go	Meta Llama
Gemma-3n E2B	~5B total	~2B actif	140+ lang.	32K	~1.5 Go	Multimodal Apache 2.0
TinyLlama 1.1B	1.1B	Dense	—	2K	~700 Mo	IoT Apache 2.0

🔧 Compact (2B-5B) — Le sweet spot pour l'usage local

Modèle	Params	Actifs	Contexte	RAM min (Q4)	Spécificité
Qwen3.5-2B	2B	Dense	262K	< 2 Go	Multimodal Apache 2.0
Qwen3.5-4B	4B	Dense	262K	~3 Go	Multimodal Apache 2.0
Qwen3-4B	4B	Dense	32K	~2.6 Go	119 lang. Apache 2.0
Gemma 3 4B	4B	Dense	128K	~2.6 Go	Vision+texte Apache 2.0
Phi-4 Mini	3.8B	Dense	128K	~2.5 Go	Raisonnement MIT
SmolLM3-3B	3B	Dense	32K	~2 Go	Transparent Apache 2.0
Mistral Ministral 3B	3B	Dense	32K	~2 Go	Raisonnement Apache 2.0

⚡ Compact MoE (2B-10B) — Performance maximale par paramètre actif

Modèle	Total	Actifs	Contexte	RAM min	Spécificité
LFM2.5-8B-A1B	8.3B	1.5B	128K	~3 Go	MoE Tool calling Apache 2.0
Gemma 4 E2B	~2.3B eff.	PLE	128K	~1.5 Go	Mobile-first Apache 2.0
Gemma 4 E4B	~4.5B eff.	PLE	128K	~5 Go	Edge Apache 2.0
Qwen3.5-9B	9B	Dense	262K	~6 Go	Multimodal Apache 2.0

2. Benchmarks comparatifs

2.1 Intelligence Index (Artificial Analysis)

🧠 Scores de raisonnement par taille (Intelligence Index — plus c'est haut, mieux c'est)

Modèle	Params	AA-Omniscience	IFEval	IFBench	MATH500	AIME25
Qwen3.5-9B	9B	32 (IA Index)	—	—	—	—
Qwen3.5-4B	4B	27 (IA Index)	87.80	50.38	80.76	54.28
Qwen3.5-2B	2B	16 (IA Index)	—	—	—	—
Qwen3.5-0.8B	0.8B	9 (IA Index)	—	—	—	—
LFM2.5-8B-A1B	8B/A1B	-24.70	91.84	56.47	88.76	42.53
Qwen3-4B	4B	-51.53	87.80	50.38	—	—
Phi-4 Mini	3.8B	—	—	—	80%+	—
SmolLM3-3B	3B	—	—	—	—	—
Ministral 3B	3B	—	—	—	—	—

    💡 Point clé : Qwen3.5-9B (score 32) double le score du modèle suivant sous 10B (Falcon-H1R-7B à 16). Qwen3.5-4B (score 27) surperforme tous les modèles sous 5B malgré ~2x moins de paramètres.

2.2 Performance d'inférence (TPS) — Source: AscentCore + benchmarks locaux

⚡ Tokens par seconde sur CPU (Q4_K_M) — plus c'est haut, mieux c'est

Modèle	TPS (CPU)	TTFT (ms)	ROUGE-L	JSON Parse %	JSON Schema %
Llama 3.2 1B	226.5	171	0.390	65.2%	30.4%
Gemma 3 1B	163.5	234	0.388	82.6%	4.3%
Qwen2.5 1.5B	167.5	207	0.398	95.7%	47.8%
SmolLM2 1.7B	157.3	192	0.408	26.1%	4.3%
Llama 3.2 3B	98.7	316	0.436	47.8%	34.8%
Gemma 3 4B	71.6	452	0.427	100%	87.0%
Qwen2.5 7B	48.1	606	0.462	95.7%	73.9%
Mistral 7B	49.0	657	0.496	95.7%	39.1%
Llama 3.1 8B	46.6	641	0.447	91.3%	91.3%

⚠️ Note : Les benchmarks de qualité (ROUGE-L) montrent que Mistral 7B est le meilleur en qualité brute, mais Qwen2.5 7B offre le meilleur ratio qualité/vitesse. Pour les tâches JSON, Gemma 3 4B excelle avec 100% de parse rate et 87% de schema compliance.

2.3 Test de raisonnement (riddle "Sally's Brothers")

🧩 Capacité de raisonnement logique

Modèle	Résultat	Commentaire
Qwen2.5 0.5B	❌ Faux (5 sœurs)	Trop petit pour le raisonnement
Qwen2.5 1.5B	❌ Faux (5 sœurs)	Toujours en dessous du seuil
Qwen2.5 3B	❌ Faux (5 sœurs)	Juste en dessous du seuil de raisonnement
Qwen2.5 7B	❌ Faux (5 sœurs)	Étonnamment, même le 7B échoue sur ce riddle
Qwen2.5 14B	✅ Correct (1 sœur)	Seuil de raisonnement franchi ici
Gemma 3 1B	❌ Faux (2 sœurs)	Ne passe pas le test
Gemma 3 4B	✅ Correct (1 sœur)	Passe le test de raisonnement
Ministral 3B	✅ Correct (1 sœur)	Le plus petit modèle à passer le test

    🔑 Insight : Le saut de raisonnement se produit entre 3B et 4B. Ministral 3B est le plus petit modèle à réussir ce test. En dessous de 3B, les modèles échouent systématiquement sur ce type de riddle logique.

2.4 Comparaison LFM2.5-8B-A1B vs concurrents (benchmarks Liquid AI)

📊 Benchmarks LFM2.5-8B-A1B (MoE 8B/1.5B actif)

Benchmark	LFM2.5-8B-A1B	Qwen3.5-4B	Qwen3-30B-A3B-Thinking	Gemma-4-26B-A4B-IT	gpt-oss-20b
AA-Omniscience	-24.70	-51.53	-51.31	-62.07	-49.17
IFEval	91.84	87.80	90.82	91.40	86.73
IFBench	56.47	50.38	51.11	47.25	58.64
Multi-IF	79.93	67.43	79.04	82.06	76.64
MATH500	88.76	80.76	86.48	94.20	92.40
AIME25	42.53	54.28	71.67	68.67	68.53
BFCLv3 (Tool calling)	64.79	71.06	73.39	68.87	62.52
BFCLv4 (Tool calling)	49.73	54.01	50.53	55.87	49.88
Tau² Telecom	88.07	87.72	21.93	42.11	57.24

    💡 Analyse LFM2.5 : Malgré seulement 1.5B paramètres actifs, le LFM2.5-8B-A1B surperforme Qwen3.5-4B (4B dense) sur IFEval et Multi-IF, et rivalise avec des modèles 30B+ sur de nombreux benchmarks. Son point fort est le tool calling et l'agentic work. Il excelle particulièrement sur Tau² Telecom (88.07 vs 87.72 pour Qwen3.5-9B, et 21.93 pour Qwen3-30B !).

3. Zoom : La famille Qwen3.5 Small (0.8B → 9B)

🏆 Qwen3.5-9B : Le "Giant Killer"

Le Qwen3.5-9B est le modèle dense sous 10B le plus intelligent en 2026. Il correspond ou dépasse gpt-oss-120B sur plusieurs benchmarks malgré un facteur 13x moins de paramètres.

MMLU : à 2 points de gpt-oss-120B
HumanEval (code) : 78% de passages
GSM8K (math) : 85% de réponses correctes
MMMU-Pro (multimodal) : 69.2%
Intelligence Index : 32 (double le suivant sous 10B)

⚖️ Qwen3.5-4B : Le performant équilibré

À 4B paramètres, le modèle commence à se comporter comme un "vrai" LLM. Il gère le chain-of-thought avec compétence et la génération de code Python fonctionne bien.

Intelligence Index : 27 (+9 points vs Qwen3 4B)
MMMU-Pro : 65.4%
RAM (Q4) : ~3 Go
Hallucination : 80% (AA-Omniscience: -57)

📱 Qwen3.5-2B : Le sweet spot pour les apps simples

Intelligence Index : 16 (équivalent Falcon-H1R-7B à 7B)
RAM (Q4) : < 2 Go
Idéal pour : classification, extraction, routing, JSON structuré
Adhérence JSON : meilleure que certains modèles 7B de l'an dernier

🔋 Qwen3.5-0.8B : Pour l'edge pur

Intelligence Index : 9 (+2.5 vs Qwen3 0.6B)
RAM (Q4) : < 1 Go
TPS sur CPU : ~80 tokens/sec
MMMU-Pro : 25.8% (remarquable pour un sous-1B)
Attention : modes "thinking" peuvent boucler ; nécessite des guardrails

3.1 Évolution Qwen3 → Qwen3.5 par taille

Modèle Qwen3	Params	IA Index	→ Qwen3.5	Params	IA Index	Gain
Qwen3 0.6B	0.6B	6.5	Qwen3.5 0.8B	0.8B	9	+2.5
Qwen3 1.7B	1.7B	13	Qwen3.5 2B	2B	16	+3
Qwen3 4B	4B	18	Qwen3.5 4B	4B	27	+9
Qwen3 VL 8B	8B	17	Qwen3.5 9B	9B	32	+15

4. Zoom : LFM2.5-8B-A1B (Liquid AI)

🧬 Architecture MoE : Le secret de la performance par paramètre actif

LFM2.5-8B-A1B est un modèle MoE (Mixture of Experts) de 8.3B paramètres totaux qui n'active que 1.5B paramètres par token. Cette sparsité est ce qui permet l'exécution sur hardware grand public.

Améliorations par rapport à LFM2-8B-A1B (Oct 2025) :

Contexte étendu de 32K → 128K tokens
Pré-training : 12T → 38T tokens
Vocabulaire doublé : 65K → 128K (meilleur pour non-Latin)
RL large-scale pour tool calling et instruction following
Chaîne de pensée explicite (reasoning-only)
Réduction des "doom loops" (boucles de raisonnement infinies)
Réduction des hallucinations via reward avg@k

📈 Amélioration LFM2 → LFM2.5

Métrique	LFM2-8B-A1B	LFM2.5-8B-A1B	Gain
AA-Omniscience	-78.42	-24.70	+53.62
AA Accuracy	7.33	8.67	+1.34
Non-Hallucination Rate	7.46	63.47	+56.02
IFEval	79.44	91.84	+12.40
IFBench	26.00	56.47	+30.47
MATH500	74.80	88.76	+13.96
AIME25	20.00	42.53	+22.53
BFCLv3	45.07	64.36	+19.29

⚠️ Limites de LFM2.5 : C'est un modèle reasoning-only (pas de mode direct). Les distillations affaiblissent les garde-fous de sécurité. Test indépendant montre une haute vulnérabilité aux prompts adversariaux. SortOutputs répétitifs si temperature n'est pas entre 0.5 et 0.7.

5. Zoom : Gemma 4 (Google DeepMind)

📐 Les 4 tailles de Gemma 4

Modèle	Params eff.	Architecture	Contexte	RAM min (Q4)	Cible
Gemma 4 E2B	~2.3B	PLE	128K	~1.5 Go	Smartphones, IoT, Raspberry Pi
Gemma 4 E4B	~4.5B	PLE	128K	~5 Go	Mobile, edge, laptops
Gemma 4 26B A4B	3.8B actifs	MoE (128 experts, 8/token)	256K	14-18 Go	RTX 3090/4090, Mac
Gemma 4 31B Dense	30.7B	Dense	256K	~20 Go	Max quality, research

    💡 Gemma 4 E2B : Utilise les Per-Layer Embeddings (PLE) pour donner une profondeur représentationnelle de modèle beaucoup plus large avec une empreinte mémoire de ~2B. C'est l'alternative directe de Google au LFM2.5-8B-A1B de Liquid AI.

6. Perception communautaire (r/LocalLLaMA, Reddit, etc.)

6.1 Top modèles par tâche selon la communauté

Tâche	Modèle #1	Runner-up	Notes
Chat général	Llama 3.3 70B	Llama 3.1 8B	Dépend de la taille disponible
Coding	Qwen Coder 32B / DeepSeek Coder	Llama 3.1 8B	Modèles spécialisés gagnent
Multilingue	Qwen 2.5 / Qwen3	Llama 3.1 8B	Qwen entraîné sur + de langues
Low hardware (4GB)	Phi-3 mini / Llama 3.2 3B	Mistral 7B	Petit mais capable
Raisonnement	DeepSeek R1 (distillé)	Llama 3.3 70B	DeepSeek a créé le plus d'excitation en 2024-25

6.2 Motivations principales pour l'IA locale (communauté Reddit)

Motivation	Prévalence	Cible
🔒 Confidentialité	Très haute	Documents sensibles, contrats, médical
💰 Coût (pas d'abonnement)	Haute	Développeurs, usage intensif
🚫 Pas de rate limits	Haute	Recherche, pipelines automatisés
📴 Offline / air-gapped	Moyenne	Environnements sécurisés
🔧 Customisation (fine-tuning)	Moyenne	Recherche, applications spécialisées

6.3 Stack recommandée par la communauté

Outil	Rôle	Pour qui
Ollama	Runner + API	Tous
Open WebUI	Interface browser	Users ChatGPT-like
LM Studio	GUI tout-en-un	Débutants, Mac
Jan.ai	App privacy-first	Users polishés
AnythingLLM	RAG + chat	Docs perso

6.4 Hardware minimum recommandé

VRAM	Modèle max	Vitesse typique	Expérience
4 GB	Llama 3.2 3B (Q4)	10-15 tok/s	Utilisable pour basique
6 GB	Llama 3.1 8B (Q4)	20-25 tok/s	Bon pour la plupart
8 GB	Llama 3.1 8B (Q8)	40-55 tok/s	Fluide, recommandé
12-16 GB	Llama 3.1 8B + ControlNet	55+ tok/s	Qualité professionnelle
24 GB	Llama 3.3 70B (Q4)	15-25 tok/s	Excellente qualité

    💡 Communauté Mac : Apple Silicon est l'architecture préférée de la communauté pour l'IA locale. Le Mac Mini M4 gère des modèles bien plus grands que les PC équivalents grâce à l'Unified Memory Architecture. Le rapport qualité/prix est "imbattable pour les LLMs locaux".

7. Recommandations par cas d'usage

Cas d'usage	Modèle recommandé	Pourquoi	RAM min
Edge / Mobile / Raspberry Pi	Qwen3.5-0.8B	Le plus petit multimodal, 262K contexte, 80 TPS sur CPU	< 1 Go
Mobile léger	Gemma 4 E2B	PLE, ~2.3B eff, mobile-first, multimodal	~1.5 Go
Sweet spot local (qualité/poids)	Qwen3.5-4B	IA Index 27, multimodal, 3 Go RAM, Apache 2.0	~3 Go
Meilleur sous 10B	Qwen3.5-9B	Égal gpt-oss-120B, IA Index 32, 6 Go RAM	~6 Go
Tool calling / Agentic	LFM2.5-8B-A1B	MoE 8B/1.5B actif, IFEval 91.84, Tau² Telecom 88	~3 Go
Raisonnement pur	Phi-4 Mini	MATH 80%+, raisonnement > modèles 70B	~2.5 Go
Qualité brute (7B)	Mistral 7B	ROUGE-L 0.509, le meilleur en qualité	~4 Go
JSON strict	Llama 3.1 8B	Schema compliance 95.7%, parse 100%	~4.7 Go
JSON + vitesse	Qwen2.5-1.5B	95.7% JSON parse, 56.5% schema, 167 TPS	~1 Go
1B ultra-rapide	Llama 3.2 1B	226 TPS (le plus rapide), 128K contexte	~1 Go
Transparent / Open training	SmolLM3-3B	Données d'entraînement 100% open, 3B le plus petit à passer le test de raisonnement	~2 Go
Minimaliste	Qwen3-0.6B	0.6B, 32K contexte, le plus petit Qwen	< 1 Go

8. Synthèse et conclusion

🏅 Top 3 par catégorie

Critère	Modèle	Score / Note
🧠 Plus intelligent sous 10B	Qwen3.5-9B	IA Index 32
⚡ Plus rapide (CPU)	Llama 3.2 1B	226 TPS
🔧 Meilleur ratio qualité/poids	Qwen3.5-4B	IA Index 27, 3 Go RAM
🛠️ Meilleur tool calling	LFM2.5-8B-A1B	BFCLv3 64.79, Tau² Telecom 88
🎯 Plus petit fonctionnel	Qwen3.5-0.8B	IA Index 9, multimodal
📐 Plus petit avec PLE	Gemma 4 E2B	~2.3B eff, 1.5 Go RAM
🧩 Raisonnement minimal	Ministral 3B	Seul modèle < 4B à passer le riddle
💎 Meilleur JSON	Gemma 3 4B	100% parse, 87% schema

    📊 Conclusion : Qwen domine clairement la catégorie des petits modèles denses avec sa famille Qwen3.5 (0.8B → 9B). Si tu cherches à étendre ta vue, LFM2.5-8B-A1B de Liquid AI est fascinant : un MoE avec 1.5B actifs qui rivalise avec des modèles 30B+. Gemma 4 E2B de Google est son concurrent direct en mobile-first. Pour l'ultra-léger, Qwen3.5-0.8B est le plus petit multimodal viable. Le sweet spot pour un usage miniature équilibré est Qwen3.5-4B (qualité, 3 Go RAM, multimodal, Apache 2.0).