Rapport Technique

Qwen3-TTS 1.7B

Analyse comparative vs OmniVoice — Candidat au remplacement TTS d'Alfred

29 mai 2026

Résumé Exécutif

Qwen3-TTS est la nouvelle génération de synthèse vocale open-source de Qwen (Alibaba), publiée en janvier 2026. Il remplace l'approche traditionnelle LM+DiT par une architecture end-to-end multi-codebook, offrant un contrôle vocal par instructions en langage naturel, un streaming ultra-faible latence (97ms), et un clonage vocal en 3 secondes.


Deux tailles disponibles : 0.6B 1.7B. Le modèle 1.7B est le plus performant et le plus adapté à un usage local sur GPU.

1.7B
Paramètres
97ms
Latence première trame
10
Langues supportées

Architecture & Innovations

🧠 Tokenizer Qwen3-TTS-12Hz
  • Compression acoustique élevée
  • 12Hz de fréquence de tokens
  • Prserve les paralinguistiques et l'environnement sonore
  • Réconstruction haute fidélité via architecture non-DiT légère
⚡ End-to-End Multi-Codebook
  • LM discret multi-codebook
  • Pas de bottleneck informationnel
  • Bypass des erreurs en cascade LM+DiT
  • Performance ceiling supérieure
🎛️ Contrôle Vocal Naturel
  • Voice Design : créer une voix par description textuelle
  • Voice Clone : 3 secondes d'audio suffisent
  • Custom Voice : 9 timbres premium (genre, âge, langue, dialecte)
  • Contrôle de timbre, émotion, prosodie par instructions

Modèles Disponibles

Modèle Type Langues Streaming Instruction
Qwen3-TTS-12Hz-1.7B-Base Base 10 ✅ (clone 3s)
Qwen3-TTS-12Hz-1.7B-VoiceDesign Design 10
Qwen3-TTS-12Hz-1.7B-CustomVoice Custom 10 ✅ (9 timbres)
Qwen3-TTS-12Hz-0.6B-Base Léger 10 ✅ (clone 3s)
Qwen3-TTS-12Hz-0.6B-CustomVoice Léger 10 ✅ (9 timbres)

Benchmarks GPU — Modèle 1.7B

GPU VRAM RTF court RTF long Latence Concurrent
RTX 5090 32GB 0.48 0.55 62ms 2+
RTX 4090 24GB 0.65 0.85 97ms 3
RTX 3090 24GB 0.95 1.26 145ms 2
RTX 4080S 16GB 0.82 1.15 125ms 1
RTX 3060 Ti 8GB 1.65 N/A
A100 40GB 0.45 0.58 58ms 2+
H100 80GB 0.35 0.48 42ms 3+
CPU seul 28GB RAM 9.8 12.5 1650ms

RTF < 1.0 = plus rapide que le temps réel. RTF ≥ 1.0 = plus lent que le temps réel.

Analyse — Ta Configuration Actuelle

🖥️ Ton Setup
  • GPU : Nvidia T1000 4Go
  • Serveur : Lenovo Thinkstation P350
  • Modèle actuel : OmniVoice
⚠️ Compatibilité T1000 4Go

La T1000 4Go est un GPU entrée de gamme professionnel. Voici la réalité :


  • 1.7B : nécessite ~5.4-5.8GB VRAM → Impossible sans quantification
  • 0.6B : nécessite ~2.5-3.2GB VRAM → Juste, possible avec quantification
  • CPU seul : RTF 4.5-9.8 → Trop lent pour du temps réel

Comparaison OmniVoice vs Qwen3-TTS

Critère OmniVoice (actuel) Qwen3-TTS 1.7B
Open Source ?? ✅ Apache 2.0
Clonage vocal ?? ✅ 3 secondes
Voice Design ✅ Par description
Streaming ?? ✅ 97ms latence
Contrôle émotion ?? ✅ Instructions NL
Langues ?? 10 (FR, EN, JP, KR, DE, etc.)
VRAM min. ?? ~5.4GB (1.7B) / ~3GB (0.6B)
vLLM support ?? ✅ Optimisé
FlashAttention 2 ?? ✅ +30-40% speedup

Recommandations

🎯 Verdict Final

Sur ta T1000 4Go, Qwen3-TTS 1.7B ne tournera pas en natif. Voici les options :


Option 1 — Qwen3-TTS 0.6B (recommandé)

  • VRAM : ~3GB → Compatible T1000
  • RTF sur CPU : ~4.5 (acceptable pour usage non temps réel)
  • Même fonctionnalités de base (clone, design, custom)
  • Qualité légèrement inférieure au 1.7B mais très correcte

Option 2 — Quantification AWQ/GPTQ du 1.7B

  • Peut réduire VRAM à ~3.5-4GB
  • Impact qualité à évaluer
  • Plus complexe à déployer

Option 3 — Hybridation Cloud

  • Qwen3-TTS 1.7B sur API (DashScope) pour les cas complexes
  • OmniVoice en fallback local pour les cas simples

Installation Rapide

# Environnement conda create -n qwen3-tts python=3.12 -y conda activate qwen3-tts # Installation pip install -U qwen-tts pip install flash-attn --no-build-isolation # Utilisation Python from qwen_tts import QwenTTS tts = QwenTTS(model="Qwen/Qwen3-TTS-12Hz-1.7B-Base") audio = tts.generate( text="Bonjour, je suis Alfred.", voice="cloned", reference_audio="voice_ref.wav" )
# Ou avec vLLM (recommandé pour la perf) pip install vllm vllm serve Qwen/Qwen3-TTS-12Hz-1.7B-Base --served-model-name qwen-tts