Explorez pas à pas le parcours d'un token à travers un réseau de neurones MoE — de l'input à l'output
Un LLM (Large Language Model) traite le texte token par token. Chaque token traverse une série de couches neuronales qui le transforment progressivement en représentation numérique. Dans un modèle MoE (Mixture of Experts), chaque couche contient un router qui sélectionne dynamiquement un sous-ensemble d'experts pour traiter le token — comme un orchestre où seuls certains musiciens jouent à chaque instant.
Un modèle MoE a des milliards de paramètres en tout, mais n'en active qu'un petit fraction pour chaque token. Qwen3.6-35B-A3B a 35 milliards de paramètres au total, mais n'en active ~3 milliards par token. C'est comme avoir une bibliothèque de 10 000 livres mais n'en lire que 3 à la fois — vous bénéficiez de la sagesse de tous sans le coût de les lire tous.
Cliquez sur "Lancer l'animation" pour voir un token traverser une couche MoE. Observez comment le router sélectionne les experts et comment les poids d'attention sont appliqués.
En attente de l'animation...
Le router MoE est le cerveau du modèle. Pour chaque token, il calcule une probabilité pour chacun des 256 experts et sélectionne les K plus probables. C'est ce mécanisme qui permet à un modèle de 35B de n'utiliser que 3B de calcul.
Le router est un petit réseau linéaire qui prend l'embedding du token et produit 256 scores. Un softmax top-k sélectionne les K experts avec les poids les plus élevés. Le token est ensuite envoyé à ces experts qui traitent l'information indépendamment.
En plus des 8 experts routés, 1 expert "shared" est toujours activé. C'est un expert universel qui capture des connaissances générales, tandis que les experts routés capturent des connaissances spécialisées.
L'attention permet au modèle de pondérer l'importance de chaque token précédent. Pour chaque token, le modèle calcule des matrices Q (Query), K (Key) et V (Value) et détermine quels tokens précédents sont les plus pertinents.
Cliquez sur un exemple ci-dessus pour voir les poids d'attention.
Attention(Q, K, V) = softmax(Q × KT / √dk) × V
Q (Query) cherche, K (Key) correspond, V (Value) apporte l'information. Le résultat est une moyenne pondérée des valeurs, où les poids dépendent de la similarité Query-Key.
Qwen3.6 possède 40 couches empilées. Chaque couche combine un bloc MoE et un mécanisme d'attention (DeltaNet ou standard). Le pattern se répète : 10 × (3 × DeltaNet + 1 × Attention). Les couches basses capturent la syntaxe, les couches intermédiaires la grammaire, et les couches hautes le raisonnement.
La profondeur du modèle est un compromis entre capacité de représentation et coût de calcul. 40 couches avec MoE permettent à Qwen3.6 d'atteindre des performances de niveau frontier tout en ne consommant que ~3B de paramètres actifs par token — contre 35B si toutes les couches étaient denses. C'est ce qui rend le modèle exécutable sur une carte graphique grand public de 24 Go.