Rapport technique — Hailo-10H · 40 TOPS · LLM edge · Janvier 2026
📖 Documentation officielle Raspberry Pi — AI HAT+ →
NPU Raspberry Pi LLM Edge Hailo-10HLe Raspberry Pi AI HAT+ 2 est le troisième et plus puissant membre de la famille AI HAT+. Introduit en janvier 2026 à 130 $, il repose sur la puce Hailo-10H et se distingue fondamentalement de ses prédécesseurs par la possibilité d'exécuter des modèles de langage (LLM) directement sur le NPU, grâce à ses 8 Go de RAM LPDDR4X dédiée.
💡 Point clé : Contrairement aux AI HAT+ 13 TOPS et 26 TOPS qui stockent les modèles dans la RAM du Pi 5, le Hailo-10H dispose de sa propre mémoire. La RAM du Pi 5 reste libre pour d'autres tâches.
| Caractéristique | AI HAT+ (13T) | AI HAT+ (26T) | AI HAT+ 2 (40T) |
|---|---|---|---|
| Puce | Hailo-8L | Hailo-8 | Hailo-10H |
| Performance | 13 TOPS | 26 TOPS | 40 TOPS |
| RAM dédiée | — | — | 8 Go LPDDR4X |
| LLM sur puce | ❌ | ❌ | ✅ |
| Interface | PCIe Gen 3 x1 | PCIe Gen 3 x1 | PCIe Gen 3 x1 |
| Prix | 70 $ | 110 $ | 130 $ |
| Dispo. | Oct 2024 | Oct 2024 | Jan 2026 |
| Paramètre | Valeur |
|---|---|
| Compute | 40 TOPS (INT4) |
| Précisions supportées | INT4, INT8, FP16 |
| RAM on-chip | 8 Go LPDDR4X |
| Interface hôte | PCIe Gen 3 x1 (8 GT/s) |
| Consommation (vision) | ~4.5 W sustained |
| Form factor | HAT+ (65 × 56.5 mm) |
| Alimentation | 5V DC via GPIO 40-pin |
| Température de fonctionnement | 0 – 70 °C |
| Modèle | Resolution | AI HAT+ 2 FPS | Conso. |
|---|---|---|---|
| YOLOv8m | 640×640 | > 60 | ~4.5 W |
| YOLOv8l | 640×640 | 30–40 | ~4.5 W |
| YOLOv8m + YOLOv8s (parallèle) | 640×640 | ~30 + ~50 | 4.5–5 W |
| Modèle | Paramètres | RAM requise | Tokens/s (decode) |
|---|---|---|---|
| Llama 3.2 | 1B | ~2 Go | 30–50 t/s |
| Qwen 2.5 | 1.5B | ~3 Go | 20–35 t/s |
| DeepSeek R1 | 1.5B | ~3 Go | 20–35 t/s |
💡 Comparaison : les mêmes modèles sur le CPU du Pi 5 tournent à 2–5 tokens/s — le AI HAT+ 2 est 10× à 25× plus rapide.
# Mise à jour système
sudo apt update && sudo apt full-upgrade -y
sudo rpi-eeprom-update -a
sudo reboot
# Installation du stack Hailo (détecte auto la puce)
sudo apt install dkms hailo-all -y
sudo reboot
# Vérification
hailortcli scan
hailortcli fw-control identify
# Doit afficher : Board Name: Hailo-10 / Device Architecture: HAILO10H
# Clone du repo officiel
git clone https://github.com/hailo-ai/hailo-rpi5-examples.git
cd hailo-rpi5-examples
./install.sh
source setup_env.sh
# Llama 3.2 (1B) — chatbot
python3 llm_pipelines/llm_chat.py --model llama3_2_1b
# Qwen 2.5 (1.5B) — assistant code
python3 llm_pipelines/llm_chat.py --model qwen2_5_1b5
# DeepSeek R1 (1.5B) — raisonnement
python3 llm_pipelines/llm_chat.py --model deepseek_r1_1b5
Le Hailo-10H peut exécuter vision et LLM en parallèle — par exemple, décrire en temps réel ce qu'une caméra voit :
python3 llm_pipelines/vision_llm.py --input rpi --model llama3_2_1b
# Installation
sudo apt install rpicam-apps
# Descripteurs YOLOv8 disponibles
ls /usr/share/rpi-camera-assets/ | grep hailo
# Détection objet live
rpicam-hello -t 0 \
--post-process-file /usr/share/rpi-camera-assets/hailo_yolov8_inference.json \
--lores-width 640 --lores-height 640
# Pose estimation
rpicam-hello -t 0 \
--post-process-file /usr/share/rpi-camera-assets/hailo_yolov8_pose.json \
--lores-width 640 --lores-height 640
Les fichiers .hef (Hailo Execution Format) sont spécifiques à l'architecture. Un fichier compilé pour Hailo-8L ne fonctionnera PAS sur Hailo-10H et inversement.
# Compiler un modèle ONNX vers .hef (Hailo-10H)
hailo-compiler model.onnx \
--arch hailo10h \
--quantization-mode INT8 \
-o model_h10h.hef
# Avec calibration (recommandé pour précision)
hailo-compiler model.onnx \
--arch hailo10h \
--quantization-mode INT8 \
--calibration-dataset calib_data.npy \
-o model_h10h.hef
# Quantization-aware training (QAT) pour max perf
# Utiliser Hailo Model Zoo ou hailo-rpi5-examples pour les scripts auto
./download_resources.sh # télécharge les .hef compilés pour HAILO10H
⚠️ Important : Les .hef sont non compatibles entre puces. Hailo-8L → Hailo-8 → Hailo-10H : chaque architecture a ses propres fichiers. Le script download_resources.sh détecte automatiquement la puce et télécharge les bons.
Les 40 TOPS permettent d'exécuter plusieurs tâches d'inférence simultanément :
# 2 flux de détection en parallèle
python3 basic_pipelines/detection.py \
--input resources/detection0.mp4 \
--input resources/detection1.mp4
# Stream 1: ~250 FPS | Stream 2: ~248 FPS
# NPU utilization: ~62% (headroom important)
| Usage | Recommandation | Pourquoi |
|---|---|---|
| Surveillance (1 cam) | AI HAT+ 13 TOPS (70 $) | Suffisant, abordable |
| Surveillance (multi-cam) | AI HAT+ 26 TOPS (110 $) | Plus de FPS, modèles plus gros |
| LLM local / assistant vocal | AI HAT+ 2 (130 $) | Seule option viable |
| Vision + LLM simultané | AI HAT+ 2 (130 $) | Seule option viable |
| Edge RAG / données sensibles | AI HAT+ 2 (130 $) | 100% local, LLM + Vision |