Comment Qwen3.6 fonctionne — Visualisation interactive du réseau neuronal

🏠 Vue d'ensemble de l'architecture

Un LLM (Large Language Model) traite le texte token par token. Chaque token traverse une série de couches neuronales qui le transforment progressivement en représentation numérique. Dans un modèle MoE (Mixture of Experts), chaque couche contient un router qui sélectionne dynamiquement un sous-ensemble d'experts pour traiter le token — comme un orchestre où seuls certains musiciens jouent à chaque instant.

🖱️ Survolez les composants pour découvrir leur rôle

💡 Le concept clé du MoE

Un modèle MoE a des milliards de paramètres en tout, mais n'en active qu'un petit fraction pour chaque token. Qwen3.6-35B-A3B a 35 milliards de paramètres au total, mais n'en active ~3 milliards par token. C'est comme avoir une bibliothèque de 10 000 livres mais n'en lire que 3 à la fois — vous bénéficiez de la sagesse de tous sans le coût de les lire tous.

← Retour à la fiche technique

🔀 Parcours d'un token à travers le modèle

Cliquez sur "Lancer l'animation" pour voir un token traverser une couche MoE. Observez comment le router sélectionne les experts et comment les poids d'attention sont appliqués.

Nombre d'experts sélectionnés : 2

1. Input Token

→

2. Embedding

→

3. Router MoE

→

4. Experts

→

5. Weighted Sum

→

6. Output

🖱️ Chaque nœud survolé montre une explication du processus

📊 Statistiques en temps réel

En attente de l'animation...

← Retour à la fiche technique

🧠 Le Router MoE en détail

Le router MoE est le cerveau du modèle. Pour chaque token, il calcule une probabilité pour chacun des 256 experts et sélectionne les K plus probables. C'est ce mécanisme qui permet à un modèle de 35B de n'utiliser que 3B de calcul.

Top-K : 2

🖱️ Survolez les experts pour voir leurs poids d'activation

🔑 Comment le router décide

Le router est un petit réseau linéaire qui prend l'embedding du token et produit 256 scores. Un softmax top-k sélectionne les K experts avec les poids les plus élevés. Le token est ensuite envoyé à ces experts qui traitent l'information indépendamment.

⚡ Expert shared

En plus des 8 experts routés, 1 expert "shared" est toujours activé. C'est un expert universel qui capture des connaissances générales, tandis que les experts routés capturent des connaissances spécialisées.

← Retour à la fiche technique

👁️ Mécanisme d'Attention

L'attention permet au modèle de pondérer l'importance de chaque token précédent. Pour chaque token, le modèle calcule des matrices Q (Query), K (Key) et V (Value) et détermine quels tokens précédents sont les plus pertinents.

🔥 Heatmap d'attention

Lignes = token en cours, Colonnes = tokens précédents

📊 Détails Q/K/V

Cliquez sur un exemple ci-dessus pour voir les poids d'attention.

🧮 La formule

Attention(Q, K, V) = softmax(Q × K^T / √d_k) × V

Q (Query) cherche, K (Key) correspond, V (Value) apporte l'information. Le résultat est une moyenne pondérée des valeurs, où les poids dépendent de la similarité Query-Key.

← Retour à la fiche technique

📚 Les 40 couches de Qwen3.6

Qwen3.6 possède 40 couches empilées. Chaque couche combine un bloc MoE et un mécanisme d'attention (DeltaNet ou standard). Le pattern se répète : 10 × (3 × DeltaNet + 1 × Attention). Les couches basses capturent la syntaxe, les couches intermédiaires la grammaire, et les couches hautes le raisonnement.

Vitesse : 5

🖱️ Survolez une couche pour voir ses détails

📈 Pourquoi 40 couches ?

La profondeur du modèle est un compromis entre capacité de représentation et coût de calcul. 40 couches avec MoE permettent à Qwen3.6 d'atteindre des performances de niveau frontier tout en ne consommant que ~3B de paramètres actifs par token — contre 35B si toutes les couches étaient denses. C'est ce qui rend le modèle exécutable sur une carte graphique grand public de 24 Go.