Qwen3-TTS est la nouvelle génération de synthèse vocale open-source de Qwen (Alibaba), publiée en janvier 2026. Il remplace l'approche traditionnelle LM+DiT par une architecture end-to-end multi-codebook, offrant un contrôle vocal par instructions en langage naturel, un streaming ultra-faible latence (97ms), et un clonage vocal en 3 secondes.
Deux tailles disponibles : 0.6B 1.7B. Le modèle 1.7B est le plus performant et le plus adapté à un usage local sur GPU.
| Modèle | Type | Langues | Streaming | Instruction |
|---|---|---|---|---|
| Qwen3-TTS-12Hz-1.7B-Base | Base | 10 | ✅ | ✅ (clone 3s) |
| Qwen3-TTS-12Hz-1.7B-VoiceDesign | Design | 10 | ✅ | ✅ |
| Qwen3-TTS-12Hz-1.7B-CustomVoice | Custom | 10 | ✅ | ✅ (9 timbres) |
| Qwen3-TTS-12Hz-0.6B-Base | Léger | 10 | ✅ | ✅ (clone 3s) |
| Qwen3-TTS-12Hz-0.6B-CustomVoice | Léger | 10 | ✅ | ✅ (9 timbres) |
| GPU | VRAM | RTF court | RTF long | Latence | Concurrent |
|---|---|---|---|---|---|
| RTX 5090 | 32GB | 0.48 | 0.55 | 62ms | 2+ |
| RTX 4090 | 24GB | 0.65 | 0.85 | 97ms | 3 |
| RTX 3090 | 24GB | 0.95 | 1.26 | 145ms | 2 |
| RTX 4080S | 16GB | 0.82 | 1.15 | 125ms | 1 |
| RTX 3060 Ti | 8GB | 1.65 | N/A | — | — |
| A100 | 40GB | 0.45 | 0.58 | 58ms | 2+ |
| H100 | 80GB | 0.35 | 0.48 | 42ms | 3+ |
| CPU seul | 28GB RAM | 9.8 | 12.5 | 1650ms | — |
RTF < 1.0 = plus rapide que le temps réel. RTF ≥ 1.0 = plus lent que le temps réel.
La T1000 4Go est un GPU entrée de gamme professionnel. Voici la réalité :
| Critère | OmniVoice (actuel) | Qwen3-TTS 1.7B |
|---|---|---|
| Open Source | ?? | ✅ Apache 2.0 |
| Clonage vocal | ?? | ✅ 3 secondes |
| Voice Design | ❌ | ✅ Par description |
| Streaming | ?? | ✅ 97ms latence |
| Contrôle émotion | ?? | ✅ Instructions NL |
| Langues | ?? | 10 (FR, EN, JP, KR, DE, etc.) |
| VRAM min. | ?? | ~5.4GB (1.7B) / ~3GB (0.6B) |
| vLLM support | ?? | ✅ Optimisé |
| FlashAttention 2 | ?? | ✅ +30-40% speedup |
Sur ta T1000 4Go, Qwen3-TTS 1.7B ne tournera pas en natif. Voici les options :
Option 1 — Qwen3-TTS 0.6B (recommandé)
Option 2 — Quantification AWQ/GPTQ du 1.7B
Option 3 — Hybridation Cloud