Raspberry Pi AI HAT+ 2

Rapport technique — Hailo-10H · 40 TOPS · LLM edge · Janvier 2026

📖 Documentation officielle Raspberry Pi — AI HAT+ →

NPU Raspberry Pi LLM Edge Hailo-10H

📋 Vue d'ensemble

Le Raspberry Pi AI HAT+ 2 est le troisième et plus puissant membre de la famille AI HAT+. Introduit en janvier 2026 à 130 $, il repose sur la puce Hailo-10H et se distingue fondamentalement de ses prédécesseurs par la possibilité d'exécuter des modèles de langage (LLM) directement sur le NPU, grâce à ses 8 Go de RAM LPDDR4X dédiée.

💡 Point clé : Contrairement aux AI HAT+ 13 TOPS et 26 TOPS qui stockent les modèles dans la RAM du Pi 5, le Hailo-10H dispose de sa propre mémoire. La RAM du Pi 5 reste libre pour d'autres tâches.

🔧 Comparaison des 3 générations AI HAT+

Caractéristique AI HAT+ (13T) AI HAT+ (26T) AI HAT+ 2 (40T)
PuceHailo-8LHailo-8Hailo-10H
Performance13 TOPS26 TOPS40 TOPS
RAM dédiée8 Go LPDDR4X
LLM sur puce
InterfacePCIe Gen 3 x1PCIe Gen 3 x1PCIe Gen 3 x1
Prix70 $110 $130 $
Dispo.Oct 2024Oct 2024Jan 2026

⚡ Spécifications techniques Hailo-10H

ParamètreValeur
Compute40 TOPS (INT4)
Précisions supportéesINT4, INT8, FP16
RAM on-chip8 Go LPDDR4X
Interface hôtePCIe Gen 3 x1 (8 GT/s)
Consommation (vision)~4.5 W sustained
Form factorHAT+ (65 × 56.5 mm)
Alimentation5V DC via GPIO 40-pin
Température de fonctionnement0 – 70 °C

📊 Benchmarks — Vision

ModèleResolutionAI HAT+ 2 FPSConso.
YOLOv8m640×640> 60~4.5 W
YOLOv8l640×64030–40~4.5 W
YOLOv8m + YOLOv8s (parallèle)640×640~30 + ~504.5–5 W

🗣 Benchmarks — LLM (sur la puce Hailo-10H)

ModèleParamètresRAM requiseTokens/s (decode)
Llama 3.21B~2 Go30–50 t/s
Qwen 2.51.5B~3 Go20–35 t/s
DeepSeek R11.5B~3 Go20–35 t/s

💡 Comparaison : les mêmes modèles sur le CPU du Pi 5 tournent à 2–5 tokens/s — le AI HAT+ 2 est 10× à 25× plus rapide.

🛠 Installation

# Mise à jour système
sudo apt update && sudo apt full-upgrade -y
sudo rpi-eeprom-update -a
sudo reboot

# Installation du stack Hailo (détecte auto la puce)
sudo apt install dkms hailo-all -y
sudo reboot

# Vérification
hailortcli scan
hailortcli fw-control identify
# Doit afficher : Board Name: Hailo-10 / Device Architecture: HAILO10H

🧠 Exécuter des LLMs

# Clone du repo officiel
git clone https://github.com/hailo-ai/hailo-rpi5-examples.git
cd hailo-rpi5-examples
./install.sh
source setup_env.sh

# Llama 3.2 (1B) — chatbot
python3 llm_pipelines/llm_chat.py --model llama3_2_1b

# Qwen 2.5 (1.5B) — assistant code
python3 llm_pipelines/llm_chat.py --model qwen2_5_1b5

# DeepSeek R1 (1.5B) — raisonnement
python3 llm_pipelines/llm_chat.py --model deepseek_r1_1b5

👁🗣 Multimodal simultané

Le Hailo-10H peut exécuter vision et LLM en parallèle — par exemple, décrire en temps réel ce qu'une caméra voit :

python3 llm_pipelines/vision_llm.py --input rpi --model llama3_2_1b

📷 Inférence caméra live (rpicam-apps)

# Installation
sudo apt install rpicam-apps

# Descripteurs YOLOv8 disponibles
ls /usr/share/rpi-camera-assets/ | grep hailo

# Détection objet live
rpicam-hello -t 0 \
  --post-process-file /usr/share/rpi-camera-assets/hailo_yolov8_inference.json \
  --lores-width 640 --lores-height 640

# Pose estimation
rpicam-hello -t 0 \
  --post-process-file /usr/share/rpi-camera-assets/hailo_yolov8_pose.json \
  --lores-width 640 --lores-height 640

🔥 Compilation de modèle pour le Hailo-10H

Les fichiers .hef (Hailo Execution Format) sont spécifiques à l'architecture. Un fichier compilé pour Hailo-8L ne fonctionnera PAS sur Hailo-10H et inversement.

Compilation avec HailoRT

# Compiler un modèle ONNX vers .hef (Hailo-10H)
hailo-compiler model.onnx \
  --arch hailo10h \
  --quantization-mode INT8 \
  -o model_h10h.hef

# Avec calibration (recommandé pour précision)
hailo-compiler model.onnx \
  --arch hailo10h \
  --quantization-mode INT8 \
  --calibration-dataset calib_data.npy \
  -o model_h10h.hef

# Quantization-aware training (QAT) pour max perf
# Utiliser Hailo Model Zoo ou hailo-rpi5-examples pour les scripts auto
./download_resources.sh  # télécharge les .hef compilés pour HAILO10H

⚠️ Important : Les .hef sont non compatibles entre puces. Hailo-8L → Hailo-8 → Hailo-10H : chaque architecture a ses propres fichiers. Le script download_resources.sh détecte automatiquement la puce et télécharge les bons.

🔄 Multi-pipeline

Les 40 TOPS permettent d'exécuter plusieurs tâches d'inférence simultanément :

# 2 flux de détection en parallèle
python3 basic_pipelines/detection.py \
  --input resources/detection0.mp4 \
  --input resources/detection1.mp4
# Stream 1: ~250 FPS | Stream 2: ~248 FPS
# NPU utilization: ~62% (headroom important)

🎯 Cas d'usage recommandés

UsageRecommandationPourquoi
Surveillance (1 cam)AI HAT+ 13 TOPS (70 $)Suffisant, abordable
Surveillance (multi-cam)AI HAT+ 26 TOPS (110 $)Plus de FPS, modèles plus gros
LLM local / assistant vocalAI HAT+ 2 (130 $)Seule option viable
Vision + LLM simultanéAI HAT+ 2 (130 $)Seule option viable
Edge RAG / données sensiblesAI HAT+ 2 (130 $)100% local, LLM + Vision

💻 Configuration recommandée

📌 Projets pratiques

  1. Assistant vocal offline — micro + AI HAT+ 2 = assistant 100% local, zéro cloud
  2. Surveillance intelligente — Frigate NVR (détection personne) + LLM (description d'événements : "Personne entre dans l'allée depuis la droite")
  3. Edge RAG — documents locaux, embeddings, requêtage avec Llama, rien ne quitte le réseau local
  4. Kiosque multimodal — caméra → vision model → LLM description → text-to-speech, tout sur un Pi 5

📚 Sources

raspberrypi.com — Raspberry Pi AI HAT+ 2 announced hailo.ai — Hailo-10H product page github.com/hailo-ai/hailo-rpi5-examples docs.hailo.ai — Hailo documentation raspberrypi.com — Raspberry Pi 5