Rapport — Qwen3-TTS 1.7B

Résumé Exécutif

Qwen3-TTS est la nouvelle génération de synthèse vocale open-source de Qwen (Alibaba), publiée en janvier 2026. Il remplace l'approche traditionnelle LM+DiT par une architecture end-to-end multi-codebook, offrant un contrôle vocal par instructions en langage naturel, un streaming ultra-faible latence (97ms), et un clonage vocal en 3 secondes.

Deux tailles disponibles : 0.6B 1.7B. Le modèle 1.7B est le plus performant et le plus adapté à un usage local sur GPU.

1.7B

Paramètres

97ms

Latence première trame

10

Langues supportées

Architecture & Innovations

🧠 Tokenizer Qwen3-TTS-12Hz

Compression acoustique élevée
12Hz de fréquence de tokens
Prserve les paralinguistiques et l'environnement sonore
Réconstruction haute fidélité via architecture non-DiT légère

⚡ End-to-End Multi-Codebook

LM discret multi-codebook
Pas de bottleneck informationnel
Bypass des erreurs en cascade LM+DiT
Performance ceiling supérieure

🎛️ Contrôle Vocal Naturel

Voice Design : créer une voix par description textuelle
Voice Clone : 3 secondes d'audio suffisent
Custom Voice : 9 timbres premium (genre, âge, langue, dialecte)
Contrôle de timbre, émotion, prosodie par instructions

Modèles Disponibles

Modèle	Type	Langues	Streaming	Instruction
Qwen3-TTS-12Hz-1.7B-Base	Base	10	✅	✅ (clone 3s)
Qwen3-TTS-12Hz-1.7B-VoiceDesign	Design	10	✅	✅
Qwen3-TTS-12Hz-1.7B-CustomVoice	Custom	10	✅	✅ (9 timbres)
Qwen3-TTS-12Hz-0.6B-Base	Léger	10	✅	✅ (clone 3s)
Qwen3-TTS-12Hz-0.6B-CustomVoice	Léger	10	✅	✅ (9 timbres)

Benchmarks GPU — Modèle 1.7B

GPU	VRAM	RTF court	RTF long	Latence	Concurrent
RTX 5090	32GB	0.48	0.55	62ms	2+
RTX 4090	24GB	0.65	0.85	97ms	3
RTX 3090	24GB	0.95	1.26	145ms	2
RTX 4080S	16GB	0.82	1.15	125ms	1
RTX 3060 Ti	8GB	1.65	N/A	—	—
A100	40GB	0.45	0.58	58ms	2+
H100	80GB	0.35	0.48	42ms	3+
CPU seul	28GB RAM	9.8	12.5	1650ms	—

RTF < 1.0 = plus rapide que le temps réel. RTF ≥ 1.0 = plus lent que le temps réel.

Analyse — Ta Configuration Actuelle

🖥️ Ton Setup

GPU : Nvidia T1000 4Go
Serveur : Lenovo Thinkstation P350
Modèle actuel : OmniVoice

⚠️ Compatibilité T1000 4Go

La T1000 4Go est un GPU entrée de gamme professionnel. Voici la réalité :

1.7B : nécessite ~5.4-5.8GB VRAM → Impossible sans quantification
0.6B : nécessite ~2.5-3.2GB VRAM → Juste, possible avec quantification
CPU seul : RTF 4.5-9.8 → Trop lent pour du temps réel

Comparaison OmniVoice vs Qwen3-TTS

Critère	OmniVoice (actuel)	Qwen3-TTS 1.7B
Open Source	??	✅ Apache 2.0
Clonage vocal	??	✅ 3 secondes
Voice Design	❌	✅ Par description
Streaming	??	✅ 97ms latence
Contrôle émotion	??	✅ Instructions NL
Langues	??	10 (FR, EN, JP, KR, DE, etc.)
VRAM min.	??	~5.4GB (1.7B) / ~3GB (0.6B)
vLLM support	??	✅ Optimisé
FlashAttention 2	??	✅ +30-40% speedup

Recommandations

🎯 Verdict Final

Sur ta T1000 4Go, Qwen3-TTS 1.7B ne tournera pas en natif. Voici les options :

Option 1 — Qwen3-TTS 0.6B (recommandé)

VRAM : ~3GB → Compatible T1000
RTF sur CPU : ~4.5 (acceptable pour usage non temps réel)
Même fonctionnalités de base (clone, design, custom)
Qualité légèrement inférieure au 1.7B mais très correcte

Option 2 — Quantification AWQ/GPTQ du 1.7B

Peut réduire VRAM à ~3.5-4GB
Impact qualité à évaluer
Plus complexe à déployer

Option 3 — Hybridation Cloud

Qwen3-TTS 1.7B sur API (DashScope) pour les cas complexes
OmniVoice en fallback local pour les cas simples

Installation Rapide

# Environnement
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

# Installation
pip install -U qwen-tts
pip install flash-attn --no-build-isolation

# Utilisation Python
from qwen_tts import QwenTTS

tts = QwenTTS(model="Qwen/Qwen3-TTS-12Hz-1.7B-Base")
audio = tts.generate(
    text="Bonjour, je suis Alfred.",
    voice="cloned",
    reference_audio="voice_ref.wav"
)
            

# Ou avec vLLM (recommandé pour la perf)
pip install vllm
vllm serve Qwen/Qwen3-TTS-12Hz-1.7B-Base --served-model-name qwen-tts