🔬 Les Petits LLM — Guide Complet 2026

Modèles de moins de 10B paramètres : benchmarks, comparaisons, perceptions communautaires et recommandations pour l'usage miniature

📌 Contexte : En 2026, la frontière entre les "petits" et les "gros" modèles s'est considérablement estompée. Des modèles de 0.8B à 9B offrent désormais des performances qui rivalisent avec des modèles 30B+ d'il y a un an. La question n'est plus si on peut les utiliser, mais lequel pour quel cas d'usage.

1. Panorama des petits LLM en 2026

🏷️ Ultra-tiny (sous 2B) — Pour l'edge, le mobile, l'IoT
Modèle Params Actifs Vocabulaire Contexte RAM min (Q4) Spécificité
Qwen3.5-0.8B 0.8B Dense 200+ lang. 262K < 2 Go Multimodal Apache 2.0
Qwen3-0.6B 0.6B Dense 32K < 1 Go Ultra-léger Apache 2.0
Gemma 3 1B 1B Dense 128K ~1 Go Google Apache 2.0
Llama 3.2 1B 1B Dense 128K ~1 Go Meta Llama
Gemma-3n E2B ~5B total ~2B actif 140+ lang. 32K ~1.5 Go Multimodal Apache 2.0
TinyLlama 1.1B 1.1B Dense 2K ~700 Mo IoT Apache 2.0
🔧 Compact (2B-5B) — Le sweet spot pour l'usage local
Modèle Params Actifs Contexte RAM min (Q4) Spécificité
Qwen3.5-2B 2B Dense 262K < 2 Go Multimodal Apache 2.0
Qwen3.5-4B 4B Dense 262K ~3 Go Multimodal Apache 2.0
Qwen3-4B 4B Dense 32K ~2.6 Go 119 lang. Apache 2.0
Gemma 3 4B 4B Dense 128K ~2.6 Go Vision+texte Apache 2.0
Phi-4 Mini 3.8B Dense 128K ~2.5 Go Raisonnement MIT
SmolLM3-3B 3B Dense 32K ~2 Go Transparent Apache 2.0
Mistral Ministral 3B 3B Dense 32K ~2 Go Raisonnement Apache 2.0
⚡ Compact MoE (2B-10B) — Performance maximale par paramètre actif
Modèle Total Actifs Contexte RAM min Spécificité
LFM2.5-8B-A1B 8.3B 1.5B 128K ~3 Go MoE Tool calling Apache 2.0
Gemma 4 E2B ~2.3B eff. PLE 128K ~1.5 Go Mobile-first Apache 2.0
Gemma 4 E4B ~4.5B eff. PLE 128K ~5 Go Edge Apache 2.0
Qwen3.5-9B 9B Dense 262K ~6 Go Multimodal Apache 2.0

2. Benchmarks comparatifs

2.1 Intelligence Index (Artificial Analysis)

🧠 Scores de raisonnement par taille (Intelligence Index — plus c'est haut, mieux c'est)

Modèle Params AA-Omniscience IFEval IFBench MATH500 AIME25
Qwen3.5-9B 9B 32 (IA Index)
Qwen3.5-4B 4B 27 (IA Index) 87.80 50.38 80.76 54.28
Qwen3.5-2B 2B 16 (IA Index)
Qwen3.5-0.8B 0.8B 9 (IA Index)
LFM2.5-8B-A1B 8B/A1B -24.70 91.84 56.47 88.76 42.53
Qwen3-4B 4B -51.53 87.80 50.38
Phi-4 Mini 3.8B 80%+
SmolLM3-3B 3B
Ministral 3B 3B
💡 Point clé : Qwen3.5-9B (score 32) double le score du modèle suivant sous 10B (Falcon-H1R-7B à 16). Qwen3.5-4B (score 27) surperforme tous les modèles sous 5B malgré ~2x moins de paramètres.

2.2 Performance d'inférence (TPS) — Source: AscentCore + benchmarks locaux

⚡ Tokens par seconde sur CPU (Q4_K_M) — plus c'est haut, mieux c'est

Modèle TPS (CPU) TTFT (ms) ROUGE-L JSON Parse % JSON Schema %
Llama 3.2 1B 226.5 171 0.390 65.2% 30.4%
Gemma 3 1B 163.5 234 0.388 82.6% 4.3%
Qwen2.5 1.5B 167.5 207 0.398 95.7% 47.8%
SmolLM2 1.7B 157.3 192 0.408 26.1% 4.3%
Llama 3.2 3B 98.7 316 0.436 47.8% 34.8%
Gemma 3 4B 71.6 452 0.427 100% 87.0%
Qwen2.5 7B 48.1 606 0.462 95.7% 73.9%
Mistral 7B 49.0 657 0.496 95.7% 39.1%
Llama 3.1 8B 46.6 641 0.447 91.3% 91.3%
⚠️ Note : Les benchmarks de qualité (ROUGE-L) montrent que Mistral 7B est le meilleur en qualité brute, mais Qwen2.5 7B offre le meilleur ratio qualité/vitesse. Pour les tâches JSON, Gemma 3 4B excelle avec 100% de parse rate et 87% de schema compliance.

2.3 Test de raisonnement (riddle "Sally's Brothers")

🧩 Capacité de raisonnement logique

Modèle Résultat Commentaire
Qwen2.5 0.5B ❌ Faux (5 sœurs) Trop petit pour le raisonnement
Qwen2.5 1.5B ❌ Faux (5 sœurs) Toujours en dessous du seuil
Qwen2.5 3B ❌ Faux (5 sœurs) Juste en dessous du seuil de raisonnement
Qwen2.5 7B ❌ Faux (5 sœurs) Étonnamment, même le 7B échoue sur ce riddle
Qwen2.5 14B ✅ Correct (1 sœur) Seuil de raisonnement franchi ici
Gemma 3 1B ❌ Faux (2 sœurs) Ne passe pas le test
Gemma 3 4B ✅ Correct (1 sœur) Passe le test de raisonnement
Ministral 3B ✅ Correct (1 sœur) Le plus petit modèle à passer le test
🔑 Insight : Le saut de raisonnement se produit entre 3B et 4B. Ministral 3B est le plus petit modèle à réussir ce test. En dessous de 3B, les modèles échouent systématiquement sur ce type de riddle logique.

2.4 Comparaison LFM2.5-8B-A1B vs concurrents (benchmarks Liquid AI)

📊 Benchmarks LFM2.5-8B-A1B (MoE 8B/1.5B actif)

Benchmark LFM2.5-8B-A1B Qwen3.5-4B Qwen3-30B-A3B-Thinking Gemma-4-26B-A4B-IT gpt-oss-20b
AA-Omniscience -24.70 -51.53 -51.31 -62.07 -49.17
IFEval 91.84 87.80 90.82 91.40 86.73
IFBench 56.47 50.38 51.11 47.25 58.64
Multi-IF 79.93 67.43 79.04 82.06 76.64
MATH500 88.76 80.76 86.48 94.20 92.40
AIME25 42.53 54.28 71.67 68.67 68.53
BFCLv3 (Tool calling) 64.79 71.06 73.39 68.87 62.52
BFCLv4 (Tool calling) 49.73 54.01 50.53 55.87 49.88
Tau² Telecom 88.07 87.72 21.93 42.11 57.24
💡 Analyse LFM2.5 : Malgré seulement 1.5B paramètres actifs, le LFM2.5-8B-A1B surperforme Qwen3.5-4B (4B dense) sur IFEval et Multi-IF, et rivalise avec des modèles 30B+ sur de nombreux benchmarks. Son point fort est le tool calling et l'agentic work. Il excelle particulièrement sur Tau² Telecom (88.07 vs 87.72 pour Qwen3.5-9B, et 21.93 pour Qwen3-30B !).

3. Zoom : La famille Qwen3.5 Small (0.8B → 9B)

🏆 Qwen3.5-9B : Le "Giant Killer"

Le Qwen3.5-9B est le modèle dense sous 10B le plus intelligent en 2026. Il correspond ou dépasse gpt-oss-120B sur plusieurs benchmarks malgré un facteur 13x moins de paramètres.

⚖️ Qwen3.5-4B : Le performant équilibré

À 4B paramètres, le modèle commence à se comporter comme un "vrai" LLM. Il gère le chain-of-thought avec compétence et la génération de code Python fonctionne bien.

📱 Qwen3.5-2B : Le sweet spot pour les apps simples

🔋 Qwen3.5-0.8B : Pour l'edge pur

3.1 Évolution Qwen3 → Qwen3.5 par taille

Modèle Qwen3 Params IA Index → Qwen3.5 Params IA Index Gain
Qwen3 0.6B 0.6B 6.5 Qwen3.5 0.8B 0.8B 9 +2.5
Qwen3 1.7B 1.7B 13 Qwen3.5 2B 2B 16 +3
Qwen3 4B 4B 18 Qwen3.5 4B 4B 27 +9
Qwen3 VL 8B 8B 17 Qwen3.5 9B 9B 32 +15

4. Zoom : LFM2.5-8B-A1B (Liquid AI)

🧬 Architecture MoE : Le secret de la performance par paramètre actif

LFM2.5-8B-A1B est un modèle MoE (Mixture of Experts) de 8.3B paramètres totaux qui n'active que 1.5B paramètres par token. Cette sparsité est ce qui permet l'exécution sur hardware grand public.

Améliorations par rapport à LFM2-8B-A1B (Oct 2025) :

📈 Amélioration LFM2 → LFM2.5

Métrique LFM2-8B-A1B LFM2.5-8B-A1B Gain
AA-Omniscience-78.42-24.70+53.62
AA Accuracy7.338.67+1.34
Non-Hallucination Rate7.4663.47+56.02
IFEval79.4491.84+12.40
IFBench26.0056.47+30.47
MATH50074.8088.76+13.96
AIME2520.0042.53+22.53
BFCLv345.0764.36+19.29
⚠️ Limites de LFM2.5 : C'est un modèle reasoning-only (pas de mode direct). Les distillations affaiblissent les garde-fous de sécurité. Test indépendant montre une haute vulnérabilité aux prompts adversariaux. SortOutputs répétitifs si temperature n'est pas entre 0.5 et 0.7.

5. Zoom : Gemma 4 (Google DeepMind)

📐 Les 4 tailles de Gemma 4

Modèle Params eff. Architecture Contexte RAM min (Q4) Cible
Gemma 4 E2B ~2.3B PLE 128K ~1.5 Go Smartphones, IoT, Raspberry Pi
Gemma 4 E4B ~4.5B PLE 128K ~5 Go Mobile, edge, laptops
Gemma 4 26B A4B 3.8B actifs MoE (128 experts, 8/token) 256K 14-18 Go RTX 3090/4090, Mac
Gemma 4 31B Dense 30.7B Dense 256K ~20 Go Max quality, research
💡 Gemma 4 E2B : Utilise les Per-Layer Embeddings (PLE) pour donner une profondeur représentationnelle de modèle beaucoup plus large avec une empreinte mémoire de ~2B. C'est l'alternative directe de Google au LFM2.5-8B-A1B de Liquid AI.

6. Perception communautaire (r/LocalLLaMA, Reddit, etc.)

6.1 Top modèles par tâche selon la communauté

Tâche Modèle #1 Runner-up Notes
Chat général Llama 3.3 70B Llama 3.1 8B Dépend de la taille disponible
Coding Qwen Coder 32B / DeepSeek Coder Llama 3.1 8B Modèles spécialisés gagnent
Multilingue Qwen 2.5 / Qwen3 Llama 3.1 8B Qwen entraîné sur + de langues
Low hardware (4GB) Phi-3 mini / Llama 3.2 3B Mistral 7B Petit mais capable
Raisonnement DeepSeek R1 (distillé) Llama 3.3 70B DeepSeek a créé le plus d'excitation en 2024-25

6.2 Motivations principales pour l'IA locale (communauté Reddit)

Motivation Prévalence Cible
🔒 ConfidentialitéTrès hauteDocuments sensibles, contrats, médical
💰 Coût (pas d'abonnement)HauteDéveloppeurs, usage intensif
🚫 Pas de rate limitsHauteRecherche, pipelines automatisés
📴 Offline / air-gappedMoyenneEnvironnements sécurisés
🔧 Customisation (fine-tuning)MoyenneRecherche, applications spécialisées

6.3 Stack recommandée par la communauté

Outil Rôle Pour qui
OllamaRunner + APITous
Open WebUIInterface browserUsers ChatGPT-like
LM StudioGUI tout-en-unDébutants, Mac
Jan.aiApp privacy-firstUsers polishés
AnythingLLMRAG + chatDocs perso

6.4 Hardware minimum recommandé

VRAM Modèle max Vitesse typique Expérience
4 GBLlama 3.2 3B (Q4)10-15 tok/sUtilisable pour basique
6 GBLlama 3.1 8B (Q4)20-25 tok/sBon pour la plupart
8 GBLlama 3.1 8B (Q8)40-55 tok/sFluide, recommandé
12-16 GBLlama 3.1 8B + ControlNet55+ tok/sQualité professionnelle
24 GBLlama 3.3 70B (Q4)15-25 tok/sExcellente qualité
💡 Communauté Mac : Apple Silicon est l'architecture préférée de la communauté pour l'IA locale. Le Mac Mini M4 gère des modèles bien plus grands que les PC équivalents grâce à l'Unified Memory Architecture. Le rapport qualité/prix est "imbattable pour les LLMs locaux".

7. Recommandations par cas d'usage

Cas d'usage Modèle recommandé Pourquoi RAM min
Edge / Mobile / Raspberry Pi Qwen3.5-0.8B Le plus petit multimodal, 262K contexte, 80 TPS sur CPU < 1 Go
Mobile léger Gemma 4 E2B PLE, ~2.3B eff, mobile-first, multimodal ~1.5 Go
Sweet spot local (qualité/poids) Qwen3.5-4B IA Index 27, multimodal, 3 Go RAM, Apache 2.0 ~3 Go
Meilleur sous 10B Qwen3.5-9B Égal gpt-oss-120B, IA Index 32, 6 Go RAM ~6 Go
Tool calling / Agentic LFM2.5-8B-A1B MoE 8B/1.5B actif, IFEval 91.84, Tau² Telecom 88 ~3 Go
Raisonnement pur Phi-4 Mini MATH 80%+, raisonnement > modèles 70B ~2.5 Go
Qualité brute (7B) Mistral 7B ROUGE-L 0.509, le meilleur en qualité ~4 Go
JSON strict Llama 3.1 8B Schema compliance 95.7%, parse 100% ~4.7 Go
JSON + vitesse Qwen2.5-1.5B 95.7% JSON parse, 56.5% schema, 167 TPS ~1 Go
1B ultra-rapide Llama 3.2 1B 226 TPS (le plus rapide), 128K contexte ~1 Go
Transparent / Open training SmolLM3-3B Données d'entraînement 100% open, 3B le plus petit à passer le test de raisonnement ~2 Go
Minimaliste Qwen3-0.6B 0.6B, 32K contexte, le plus petit Qwen < 1 Go

8. Synthèse et conclusion

🏅 Top 3 par catégorie

Critère Modèle Score / Note
🧠 Plus intelligent sous 10BQwen3.5-9BIA Index 32
⚡ Plus rapide (CPU)Llama 3.2 1B226 TPS
🔧 Meilleur ratio qualité/poidsQwen3.5-4BIA Index 27, 3 Go RAM
🛠️ Meilleur tool callingLFM2.5-8B-A1BBFCLv3 64.79, Tau² Telecom 88
🎯 Plus petit fonctionnelQwen3.5-0.8BIA Index 9, multimodal
📐 Plus petit avec PLEGemma 4 E2B~2.3B eff, 1.5 Go RAM
🧩 Raisonnement minimalMinistral 3BSeul modèle < 4B à passer le riddle
💎 Meilleur JSONGemma 3 4B100% parse, 87% schema
📊 Conclusion : Qwen domine clairement la catégorie des petits modèles denses avec sa famille Qwen3.5 (0.8B → 9B). Si tu cherches à étendre ta vue, LFM2.5-8B-A1B de Liquid AI est fascinant : un MoE avec 1.5B actifs qui rivalise avec des modèles 30B+. Gemma 4 E2B de Google est son concurrent direct en mobile-first. Pour l'ultra-léger, Qwen3.5-0.8B est le plus petit multimodal viable. Le sweet spot pour un usage miniature équilibré est Qwen3.5-4B (qualité, 3 Go RAM, multimodal, Apache 2.0).

📚 Sources

  1. DEV.to — 15 Best Lightweight Language Models Worth Running in 2026
  2. Liquid AI — LFM2.5-8B-A1B Blog Post
  3. DeployBase — Best Small LLMs in 2026
  4. AscentCore — Small LLM Performance Benchmark (22 configs, 11 modèles)
  5. Samarkanov — Local LLM Performance Benchmarks 2026 (CPU + Mac M2/M4)
  6. Artificial Analysis — Qwen3.5 small models benchmarks
  7. Apatero — Qwen 3.5 Small Models Review
  8. BentoML — Best Open-Source SLMs in 2026
  9. AurigaIT — Gemma 4 Specs, Benchmarks & Local Guide
  10. AIToolDiscovery — Local LLM Reddit Community Guide 2026
  11. InsiderLLM — Qwen3 Complete Guide: 0.6B to 235B
  12. ComputingForGeeks — Open Source LLM Comparison Table 2026
  13. HuggingFace — SmolLM3 GitHub (11T tokens, transparent training)