Raspberry Pi AI HAT+ 2

Rapport technique — Hailo-10H · 40 TOPS · LLM edge · Janvier 2026

📖 Documentation officielle Raspberry Pi — AI HAT+ →

NPU Raspberry Pi LLM Edge Hailo-10H

📋 Vue d'ensemble

Le Raspberry Pi AI HAT+ 2 est le troisième et plus puissant membre de la famille AI HAT+. Introduit en janvier 2026 à 130 $, il repose sur la puce Hailo-10H et se distingue fondamentalement de ses prédécesseurs par la possibilité d'exécuter des modèles de langage (LLM) directement sur le NPU, grâce à ses 8 Go de RAM LPDDR4X dédiée.

💡 Point clé : Contrairement aux AI HAT+ 13 TOPS et 26 TOPS qui stockent les modèles dans la RAM du Pi 5, le Hailo-10H dispose de sa propre mémoire. La RAM du Pi 5 reste libre pour d'autres tâches.

🔧 Comparaison des 3 générations AI HAT+

Caractéristique	AI HAT+ (13T)	AI HAT+ (26T)	AI HAT+ 2 (40T)
Puce	Hailo-8L	Hailo-8	Hailo-10H
Performance	13 TOPS	26 TOPS	40 TOPS
RAM dédiée	—	—	8 Go LPDDR4X
LLM sur puce	❌	❌	✅
Interface	PCIe Gen 3 x1	PCIe Gen 3 x1	PCIe Gen 3 x1
Prix	70 $	110 $	130 $
Dispo.	Oct 2024	Oct 2024	Jan 2026

⚡ Spécifications techniques Hailo-10H

Paramètre	Valeur
Compute	40 TOPS (INT4)
Précisions supportées	INT4, INT8, FP16
RAM on-chip	8 Go LPDDR4X
Interface hôte	PCIe Gen 3 x1 (8 GT/s)
Consommation (vision)	~4.5 W sustained
Form factor	HAT+ (65 × 56.5 mm)
Alimentation	5V DC via GPIO 40-pin
Température de fonctionnement	0 – 70 °C

📊 Benchmarks — Vision

Modèle	Resolution	AI HAT+ 2 FPS	Conso.
YOLOv8m	640×640	> 60	~4.5 W
YOLOv8l	640×640	30–40	~4.5 W
YOLOv8m + YOLOv8s (parallèle)	640×640	~30 + ~50	4.5–5 W

🗣 Benchmarks — LLM (sur la puce Hailo-10H)

Modèle	Paramètres	RAM requise	Tokens/s (decode)
Llama 3.2	1B	~2 Go	30–50 t/s
Qwen 2.5	1.5B	~3 Go	20–35 t/s
DeepSeek R1	1.5B	~3 Go	20–35 t/s

💡 Comparaison : les mêmes modèles sur le CPU du Pi 5 tournent à 2–5 tokens/s — le AI HAT+ 2 est 10× à 25× plus rapide.

🛠 Installation

# Mise à jour système
sudo apt update && sudo apt full-upgrade -y
sudo rpi-eeprom-update -a
sudo reboot

# Installation du stack Hailo (détecte auto la puce)
sudo apt install dkms hailo-all -y
sudo reboot

# Vérification
hailortcli scan
hailortcli fw-control identify
# Doit afficher : Board Name: Hailo-10 / Device Architecture: HAILO10H

🧠 Exécuter des LLMs

# Clone du repo officiel
git clone https://github.com/hailo-ai/hailo-rpi5-examples.git
cd hailo-rpi5-examples
./install.sh
source setup_env.sh

# Llama 3.2 (1B) — chatbot
python3 llm_pipelines/llm_chat.py --model llama3_2_1b

# Qwen 2.5 (1.5B) — assistant code
python3 llm_pipelines/llm_chat.py --model qwen2_5_1b5

# DeepSeek R1 (1.5B) — raisonnement
python3 llm_pipelines/llm_chat.py --model deepseek_r1_1b5

👁🗣 Multimodal simultané

Le Hailo-10H peut exécuter vision et LLM en parallèle — par exemple, décrire en temps réel ce qu'une caméra voit :

python3 llm_pipelines/vision_llm.py --input rpi --model llama3_2_1b

📷 Inférence caméra live (rpicam-apps)

# Installation
sudo apt install rpicam-apps

# Descripteurs YOLOv8 disponibles
ls /usr/share/rpi-camera-assets/ | grep hailo

# Détection objet live
rpicam-hello -t 0 \
  --post-process-file /usr/share/rpi-camera-assets/hailo_yolov8_inference.json \
  --lores-width 640 --lores-height 640

# Pose estimation
rpicam-hello -t 0 \
  --post-process-file /usr/share/rpi-camera-assets/hailo_yolov8_pose.json \
  --lores-width 640 --lores-height 640

🔥 Compilation de modèle pour le Hailo-10H

Les fichiers .hef (Hailo Execution Format) sont spécifiques à l'architecture. Un fichier compilé pour Hailo-8L ne fonctionnera PAS sur Hailo-10H et inversement.

Compilation avec HailoRT

# Compiler un modèle ONNX vers .hef (Hailo-10H)
hailo-compiler model.onnx \
  --arch hailo10h \
  --quantization-mode INT8 \
  -o model_h10h.hef

# Avec calibration (recommandé pour précision)
hailo-compiler model.onnx \
  --arch hailo10h \
  --quantization-mode INT8 \
  --calibration-dataset calib_data.npy \
  -o model_h10h.hef

# Quantization-aware training (QAT) pour max perf
# Utiliser Hailo Model Zoo ou hailo-rpi5-examples pour les scripts auto
./download_resources.sh  # télécharge les .hef compilés pour HAILO10H

⚠️ Important : Les .hef sont non compatibles entre puces. Hailo-8L → Hailo-8 → Hailo-10H : chaque architecture a ses propres fichiers. Le script download_resources.sh détecte automatiquement la puce et télécharge les bons.

🔄 Multi-pipeline

Les 40 TOPS permettent d'exécuter plusieurs tâches d'inférence simultanément :

# 2 flux de détection en parallèle
python3 basic_pipelines/detection.py \
  --input resources/detection0.mp4 \
  --input resources/detection1.mp4
# Stream 1: ~250 FPS | Stream 2: ~248 FPS
# NPU utilization: ~62% (headroom important)

🎯 Cas d'usage recommandés

Usage	Recommandation	Pourquoi
Surveillance (1 cam)	AI HAT+ 13 TOPS (70 $)	Suffisant, abordable
Surveillance (multi-cam)	AI HAT+ 26 TOPS (110 $)	Plus de FPS, modèles plus gros
LLM local / assistant vocal	AI HAT+ 2 (130 $)	Seule option viable
Vision + LLM simultané	AI HAT+ 2 (130 $)	Seule option viable
Edge RAG / données sensibles	AI HAT+ 2 (130 $)	100% local, LLM + Vision

💻 Configuration recommandée

Raspberry Pi 5 8 Go (fortement recommandé pour LLM)
AI HAT+ 2 (Hailo-10H) — 130 $
Raspberry Pi OS 64-bit (Bookworm) à jour
Active Cooler pour le Pi 5 (charge thermique significative)
Alimentation officielle 27W USB-C
Raspberry Pi Camera Module 3 ou webcam CSI

📌 Projets pratiques

Assistant vocal offline — micro + AI HAT+ 2 = assistant 100% local, zéro cloud
Surveillance intelligente — Frigate NVR (détection personne) + LLM (description d'événements : "Personne entre dans l'allée depuis la droite")
Edge RAG — documents locaux, embeddings, requêtage avec Llama, rien ne quitte le réseau local
Kiosque multimodal — caméra → vision model → LLM description → text-to-speech, tout sur un Pi 5

📚 Sources

raspberrypi.com — Raspberry Pi AI HAT+ 2 announced hailo.ai — Hailo-10H product page github.com/hailo-ai/hailo-rpi5-examples docs.hailo.ai — Hailo documentation raspberrypi.com — Raspberry Pi 5