Ce guide a pour objectif de fournir une procédure complète, étape par étape, pour mettre en place un Raspberry Pi 5 (16 Go de RAM) destiné à l'expérimentation d'IA locale. Il s'adresse à des profils peu techniques mais désireux d'accéder à une interface graphique à distance, à la manière de LM Studio sur un PC.
Contrairement à un PC classique, le Raspberry Pi est un ordinateur monocartelle (SBC) basé sur l'architecture ARM 64-bit. Il nécessite donc des binaires et des modèles adaptés (format GGUF pour ARM64). Le setup diffère de votre configuration maison (LM Studio + RDP) mais l'objectif est similaire : un accès graphique à distance avec des modèles LLM locaux.
Le guide couvre :
| Composant | Spécification |
|---|---|
| Processeur (CPU) | Broadcom BCM2712 — Quad-core Arm Cortex-A76 @ 2.4 GHz (64-bit) |
| GPU | VideoCore VII — OpenGL ES 3.1, Vulkan 1.2 |
| RAM | 16 Go LPDDR4X-4267 (mémoire partagée avec le GPU) |
| Connectivité | Wi-Fi 802.11ac (bi-bande 2.4/5 GHz), Bluetooth 5.0 / BLE |
| Connectique | 2 Ă— USB 3.0 (5 Gbps), 2 Ă— USB 2.0, Gigabit Ethernet |
| Affichage | 2 Ă— micro-HDMI (dual 4Kp60 avec HDR) |
| Stockage | microSD (SDR104 haute vitesse) + interface PCIe 2.0 x1 (via M.2 HAT) |
| Alimentation | USB-C PD — 5V/5A (27W) recommandé |
| Autres | Port 40 broches GPIO, RTC (horloge temps réel), bouton d'alimentation, 2 connecteurs MIPI 4-lanes |
| Dimensions | 85 Ă— 56 Ă— 17 mm (format standard Raspberry Pi) |
Le GPU VideoCore VII partage la RAM avec le CPU. Sur un Pi 5 à 16 Go, environ 1 à 2 Go sont alloués au GPU selon la configuration. Cela laisse ~14 Go disponibles pour les modèles LLM, ce qui est suffisant pour des modèles de 7B quantisés en Q4/Q5.
La version 16 Go du Pi 5 permet de charger des modèles de taille moyenne (7B Q4, certains 8B) tout en gardant le système réactif. C'est le bon compromis pour l'expérimentation sans avoir besoin de NPU (AI HAT+).
Voici la procédure pour le premier branchement de la machine, en local avec écran, clavier et souris.
Sur votre PC principal, téléchargez Raspberry Pi Imager depuis raspberrypi.com/software.
Ouvrez-le, sélectionnez Raspberry Pi 5 comme device, Raspberry Pi OS (64-bit) with Desktop comme OS, et votre carte microSD.
Privilégiez une carte rapide (U3 / A2). Une carte classe 1 bas de gamme ralentira significativement le système. Minimum 64 Go recommandé pour installer Docker et des modèles LLM.
Le Pi 5 démarre sur Raspberry Pi OS Desktop. Un assistant de configuration apparaît :
pi par défaut pour des raisons de sécurité)Deux options s'offrent à vous selon l'usage :
C'est l'option la plus proche de votre expérience LM Studio sur PC. Elle inclut un environnement graphique complet (PIXEL desktop), un navigateur, et un terminal. Idéal pour les profils peu techniques.
Version sans interface graphique. Tout se fait en ligne de commande. À adopter une fois le setup stabilisé.
Puisque vous avez 16 Go de RAM et que des utilisateurs peu techniques utiliseront la machine, l'option A (Desktop) est recommandée en phase 1. Vous pourrez passer à Lite plus tard si besoin.
Pour accéder au bureau du Pi 5 depuis un autre PC (Windows, Mac, Linux), nous installons xrdp, un serveur RDP open-source.
remmina ou xrdp clientOu vérifier dans les paramètres réseau de l'interface graphique du Pi.
XRDP ne fonctionne pas avec le serveur d'affichage Wayland. Raspberry Pi OS Bookworm utilise Xorg par défaut pour le Pi 5, donc ça devrait fonctionner. Si vous rencontrez un écran noir, vérifiez que Xorg est actif : echo $XDG_SESSION_TYPE doit retourner x11.
LM Studio n'est pas disponible en version GUI native sur ARM64/Linux. Cependant, sa CLI (lms) et son serveur headless fonctionnent parfaitement sur le Pi 5. Voici le setup recommandé :
Le serveur LM Studio expose une API compatible OpenAI sur http://<IP-du-Pi>:1234/v1. Tout outil compatible OpenAI (Open WebUI, scripts, etc.) peut s'y connecter.
Pour que le daemon et le serveur démarrent automatiquement :
Ollama est une alternative plus simple à configurer mais avec moins de flexibilité que LM Studio. Voici comment l'installer :
Par défaut, Ollama utilise tous les 4 cœurs CPU, ce qui peut ralentir le bureau. Il faut configurer OLLAMA_NUM_PARALLEL pour limiter cela. De plus, Ollama ne permet pas de sélectionner finement les quantisations comme LM Studio.
| Critère | LM Studio (lms) | Ollama |
|---|---|---|
| Installation | Script curl (CLI) | Script curl (CLI) |
| Interface | CLI + API HTTP | CLI + API HTTP |
| Sélection de modèles | ✅ Large choix GGUF, tout format | Registry limité |
| Quantization | ✅ Q2 à Q8, K_M, K_S, etc. | Pré-quantifiés |
| API OpenAI | âś… Natif (port 1234) | âś… Natif (port 11434) |
| Contrôle threads CPU | ✅ Via paramètres serveur | ✅ OLLAMA_NUM_PARALLEL |
| Headless / systemd | ✅ Supporté | ✅ Supporté |
| GUI desktop | ❌ Pas sur ARM64/Linux | ❌ Pas sur ARM64/Linux |
| Performance | âś… ~10-20% plus rapide | Bon |
| Écosystème | Open WebUI, scripts | Open WebUI, scripts |
| Recommandation | Recommandé | Alternative |
LM Studio (lms) est recommandé en priorité car il offre un contrôle plus fin des modèles et des performances légèrement supérieures. Utilisez Ollama comme fallback si LM Studio pose des problèmes.
Voici les modèles les plus adaptés à votre configuration, classés par taille :
| Modèle | Taille (Q4) | RAM estimée | TPS attendu | Usage |
|---|---|---|---|---|
| Qwen3 4B | ~2.5 Go | ~4 Go | ~30-50 tok/s | Réponse rapide, tâches générales |
| Qwen3 8B | ~5 Go | ~7-8 Go | ~15-25 tok/s | Meilleur compromis |
| Gemma 3 4B | ~2.5 Go | ~4 Go | ~35-55 tok/s | Léger et performant |
| Llama 3.2 8B | ~5 Go | ~7-8 Go | ~12-20 tok/s | Bon pour la compréhension |
| Gemma 3 1B | ~1 Go | ~2 Go | ~60-100 tok/s | Ultra-rapide, tâches simples |
| Phi-3.5 Mini 3.8B | ~2.3 Go | ~4 Go | ~35-50 tok/s | Microsoft, bon rapport qualité/poids |
Commencez par Qwen3 4B pour tester le setup rapidement (chargement en ~10s). Une fois stable, passez à Qwen3 8B Q4_K_M pour de meilleures capacités. Vous avez 16 Go de RAM, donc vous pouvez même essayer des modèles de 13B en Q3 si besoin (chargement plus lent mais faisable).
Pour une expérience proche de LM Studio (interface graphique de chat), déployez Open WebUI en Docker :
Dans Open WebUI → Admin Panel → Settings → Connections, définir l'URL de l'API LM Studio comme http://127.0.0.1:1234/v1 (ou l'IP du Pi selon la configuration).
Une fois le premier Pi 5 stable, voici les étapes pour passer au cluster de 3 Pi :
Concentrez-vous d'abord sur le setup logiciel du Pi 5 nu. L'AI HAT+ est une étape ultérieure pour l'inférence accélérée.
| Problème | Solution |
|---|---|
| Écran noir au démarrage | Vérifier l'alimentation (27W PD requis), carte microSD, câble HDMI |
| Pas d'accès réseau | ip a pour vérifier l'IP, ping 8.8.8.8, vérifier le routeur |
| xrdp ne se connecte pas | Vérifier sudo systemctl status xrdp, pare-feu (sudo ufw allow 3389), session X11 |
| LM Studio ne démarre pas | lms daemon status, vérifier les logs : journalctl -u lms-daemon -f |
| Modèle ne se charge pas (OOM) | Modèle trop gros pour la RAM disponible. Réduire la quantization (Q4 → Q3) ou utiliser un modèle plus petit |
| Performance lente | Vérifier la température : vcgencmd measure_temp. Activer le ventilateur. Vérifier la carte microSD (passer en NVMe si possible) |
| Docker ne fonctionne pas | sudo usermod -aG docker $USER, déconnecter/reconnecter, docker run hello-world |