XTTS v2 contre ElevenLabs, tout tient à un arbitrage honnête : voulez-vous une voix qui tourne gratuitement sur votre machine, ou le chemin le plus simple vers le rendu le plus naturel du marché. Nous avons utilisé les deux pour du vrai travail, de la narration et des clones de voix rapides, et aucun ne gagne proprement. XTTS v2 est open source, tourne hors ligne, ne coûte rien au mot, et clone une voix à partir de quelques secondes d'audio. ElevenLabs sonne un peu plus humain, parle plus de langues, répond plus vite, et vous donne des droits commerciaux clairs dès que vous payez. Le piège que la plupart des comparatifs oublient, c'est la licence, et c'est souvent ce qui tranche. Voici le tableau complet, sans faux prix.
The short answer
Choisissez XTTS v2 si vous voulez une voix qui tourne gratuitement et hors ligne sur votre propre GPU, garde chaque mot privé, et clone à partir de quelques secondes d'audio, et que votre usage est personnel ou de recherche, car les poids du modèle sont non commerciaux. Choisissez ElevenLabs si vous publiez ou monétisez : il sonne un peu plus humain, répond plus vite, parle plus de langues, et vous donne des droits commerciaux clairs dès que vous payez.
On y arrive comme la plupart des gens : on a besoin d'une voix pour quelque chose, une vidéo, un tutoriel, un prototype qui parle, et on découvre que le terrain s'est réduit à deux noms qui reviennent sans cesse. ElevenLabs, le service cloud que tout le monde prend comme référence, et XTTS v2, le modèle open source de Coqui que vous faites tourner vous-même. Ils résolvent le même problème par les deux bouts. L'un est un abonnement qui marche tout seul, l'autre un téléchargement gratuit qui réclame un GPU et un après-midi. Nous avons diffusé du vrai audio avec les deux, donc voici le comparatif qu'on aurait aimé lire en premier. Les prix côté ElevenLabs bougent, alors nous décrivons la forme des offres et vous renvoyons à leur page pour les chiffres du moment, plutôt que de vous donner des montants qui vieillissent mal.
Le verdict rapide
Si vous survolez, voici la version courte, selon qui vous êtes.
| Vous êtes... | Le choix | Pourquoi |
|---|---|---|
| Amateur, étudiant ou chercheur | XTTS v2 | Gratuit, privé, hors ligne, génération illimitée sur votre GPU |
| En train de publier ou monétiser | ElevenLabs | Top qualité, zéro installation, et une licence commerciale claire |
| En train de bâtir une appli temps réel | ElevenLabs (Flash) | Une latence sous les 100 ms que le local n'atteint pas |
| Tenu à la confidentialité (cloud interdit) | XTTS v2 | Rien ne quitte jamais votre machine, point |
| En train de livrer un produit payant à petit budget | Ni l'un ni l'autre, élargissez | Les poids de XTTS sont non commerciaux ; prenez plutôt Piper ou Kokoro |
Cette dernière ligne est celle qui surprend, et on y revient plus bas, car c'est le détail qui tranche discrètement beaucoup de projets.
Côte à côte
Le même comparatif en tableau, sur ce qui décide vraiment. Lisez deux fois la ligne licence.
| XTTS v2 (Coqui) | ElevenLabs | |
|---|---|---|
| Où ça tourne | Votre matériel, totalement hors ligne | Le cloud, internet requis |
| Coût | Gratuit à faire tourner (vous payez en GPU) | Palier gratuit d'éval, puis offres à l'usage |
| Qualité du rendu | Excellente, ~94% d'ElevenLabs en tests ouverts | La référence, un peu plus naturel et expressif |
| Langues | 17 | Environ 32 sur Multilingual v2, plus sur le dernier modèle |
| Clonage de voix | Dès ~6 s d'audio, 15 à 30 s c'est mieux | Clone instantané dès ~1 min, clone pro sur séance |
| Latence | Selon votre GPU, croît avec la longueur | Très basse, le modèle Flash est sous ~75 ms |
| Confidentialité | Totale, aucun audio ne quitte la machine | L'audio est traité sur leurs serveurs |
| Usage commercial | Licence non commerciale, et personne à qui en acheter | Inclus sur toute offre payante |
| Effort d'installation | Installer, un GPU, un peu de bricolage | S'inscrire et taper |
Là où ElevenLabs gagne
S'il est le nom auquel tout le monde se compare, ce n'est pas un hasard. Le rendu de son modèle Multilingual v2, et du modèle plus expressif au-dessus, est vraiment difficile à distinguer d'un vrai enregistrement à vitesse d'écoute normale. La palette d'émotions est plus large, la régularité sur un long script plus solide, et vous y arrivez sans aucune installation : vous collez du texte et ça parle. Il parle plus de langues d'origine, et pour tout ce qui est interactif son modèle Flash répond en bien moins d'un dixième de seconde, ce qu'aucun moteur local sur du matériel grand public n'égalera. Et quand vous payez, les droits commerciaux sont écrits noir sur blanc et à vous, ce qui compte plus qu'on ne le croit jusqu'au jour où un client le demande.
Le coût honnête, c'est exactement cela : un service payant, dans le cloud. Votre texte et votre audio partent sur leurs serveurs, donc c'est exclu là où les données ne peuvent pas sortir des murs. Le palier gratuit sert à l'essayer, pas à diffuser avec : aucun usage commercial, une obligation d'attribution, et pas de clone de voix instantané. Et comme la facturation se fait en crédits d'usage, un mois chargé coûte de l'argent réel. Vous achetez la qualité, la vitesse et le confort, et ils valent vraiment leur prix, mais vous les louez.
Là où XTTS v2 gagne
XTTS v2 gagne sur tout ce que le cloud ne peut pas donner. Il est gratuit à faire tourner : une fois le matériel là, aucun compteur au mot ne tourne, ce qui change la façon de travailler, vous régénérez une phrase vingt fois sans penser au coût. Il tourne entièrement hors ligne, donc c'est la réponse évidente quand la confidentialité ou l'isolement réseau est une exigence ferme, rien de ce que vous tapez ou clonez ne quitte la machine. Il clone une voix dès six secondes d'audio, dans 17 langues. Et la qualité est la surprise : les tests d'écoute indépendants le placent autour de 94 pour cent d'ElevenLabs, ce dernier ne gardant qu'une petite avance sur l'émotion et la régularité. Pour beaucoup de narration, cet écart est dur à entendre.
Le prix à payer est en matériel et en effort. Vous voulez un GPU NVIDIA pour viser le temps réel, le modèle tourne sur processeur mais lentement, et l'installation est une vraie étape, pas un formulaire d'inscription. Et puis il y a la licence, qui mérite sa propre section.
Le piège de licence que personne ne mentionne
C'est ce qui transforme une victoire nette en victoire prudente, et la plupart des comparatifs l'esquivent. Les poids du modèle XTTS v2 sont livrés sous la Coqui Public Model License, qui est non commerciale. Le code autour du modèle est en MPL 2.0, permissive, alors les gens supposent que l'ensemble est libre d'usage commercial. Faux : les poids, la partie qui fabrique réellement la voix, sont le morceau restreint.
Et ça se durcit. Coqui, l'entreprise qui a créé XTTS et la seule à pouvoir vous vendre une licence commerciale, a fermé en janvier 2024. Il n'existe donc plus aucun chemin légal vers une licence commerciale, le vendeur n'existe plus. Le modèle reste libre à télécharger et à utiliser, et un fork communautaire activement maintenu le garde fonctionnel sur les Python et PyTorch actuels, mais la licence sur les poids n'a pas changé. La lecture honnête en 2026 est simple : utilisez XTTS v2 pour le personnel, la recherche et le non-commercial, et ne l'intégrez pas dans un produit que vous vendez.
Si vous avez besoin d'un moteur local que vous pouvez réellement livrer, la bonne nouvelle est qu'il en existe plusieurs aux poids vraiment permissifs : Piper, Kokoro (Apache 2.0) et StyleTTS 2 (MIT) sont les noms à regarder. Ce sont les bons outils quand l'usage est commercial et que vous voulez quand même tout en local. Et si vous voulez une finition au niveau de XTTS sans aucun devoir de licence, une offre payante ElevenLabs est, là encore, la réponse propre.
Faire tourner XTTS v2 en local
Si XTTS v2 est votre choix, voici le peu qu'il faut pour en sortir une voix. Installez le fork communautaire maintenu, pointez-le vers un court échantillon de voix, et choisissez l'une des 17 langues.
La qualité de votre clone tient presque entièrement à l'échantillon. Un enregistrement propre et régulier de 15 à 30 secondes, une seule voix, pas de musique, pas d'écho de pièce, bat un échantillon plus long et brouillon à tous les coups. C'est vrai pour ElevenLabs aussi, donc si vous comptez cloner une voix, ça vaut la peine d'enregistrer l'échantillon proprement une bonne fois.
Alors, lequel choisir ?
En enlevant tout le reste, il y a deux cas nets. Si votre travail est personnel, de recherche, ou tout ce dont l'audio ne peut pas toucher le cloud, et que vous avez un GPU, XTTS v2 est une voix gratuite vraiment excellente, tant que vous respectez la licence non commerciale. Si vous publiez ou monétisez, voulez le rendu le plus naturel sans installation, avez besoin de beaucoup de langues ou d'une faible latence, ou voulez simplement des droits commerciaux sans avoir à y penser, ElevenLabs mérite son abonnement.
Pour la plupart de ceux qui lisent ceci et fabriquent quelque chose à diffuser dans le monde, cela pointe vers ElevenLabs, avec XTTS v2 comme superbe option gratuite pour tout ce qui est privé et personnel. Et si vous livrez un produit payant à budget serré, souvenez-vous de la troisième porte : un moteur local sous licence permissive comme Piper ou Kokoro. La bonne voix dépend entièrement de ce que vous en faites, et c'est exactement ainsi que ça devrait être.
Sources et pour aller plus loin
- ElevenLabs, les modèles et leurs différences
- Les tarifs ElevenLabs
- Le modèle et la licence XTTS v2 sur Hugging Face
- Le fork communautaire maintenu de Coqui TTS
Questions fréquentes
Est-ce que XTTS v2 vaut ElevenLabs ?
C'est plus proche qu'on ne le croit. Dans les tests d'écoute indépendants, XTTS v2 atteint environ 94 pour cent de la qualité d'ElevenLabs, ce dernier gardant une petite avance sur la palette d'émotions et la régularité. Pour beaucoup de narration et de clonage de voix, l'écart est difficile à entendre à vitesse normale. Là où ElevenLabs reste devant, c'est la latence et son clonage de voix professionnel, entraîné à partir d'une vraie séance d'enregistrement, qui dépasse tout moteur local. Donc XTTS v2 suffit pour la plupart des usages, ElevenLabs est le choix sûr quand le rendu doit être irréprochable.
Puis-je utiliser XTTS v2 en usage commercial ?
Considérez que non. Les poids du modèle XTTS v2 sont sous licence Coqui Public Model License, qui interdit l'usage commercial, même si le code autour est en MPL 2.0, permissive. Coqui, l'entreprise, a fermé en janvier 2024 : il n'y a donc plus personne pour vous vendre une licence commerciale. Si vous voulez un moteur local intégrable dans un produit payant, regardez Piper, Kokoro ou StyleTTS 2, dont les poids sont permissifs (MIT ou Apache). Pour du commercial avec une finition au niveau de XTTS et zéro risque de licence, une offre payante ElevenLabs est la réponse propre.
ElevenLabs est-il gratuit ?
Il existe une offre gratuite, mais pour l'évaluation seulement. Elle donne un petit budget de crédits mensuel, aucun droit commercial, et impose d'attribuer ElevenLabs dans tout contenu public, et le clonage de voix instantané est désactivé. Dès que vous voulez publier ou monétiser, il faut une offre payante, qui débloque aussi la licence commerciale et le clonage de voix. Vous pouvez donc le tester gratuitement, mais vous ne pouvez pas diffuser légalement de l'audio du palier gratuit dans un produit ou une vidéo monétisée.
Combien d'audio faut-il pour cloner une voix ?
Pour XTTS v2, six secondes suffisent, mais quinze à trente secondes d'audio propre donnent un clone nettement meilleur. Le clonage instantané d'ElevenLabs demande environ une minute et se situe dans la même gamme de qualité que XTTS. Son clonage professionnel est un autre niveau : il réclame une trentaine de minutes ou plus d'enregistrement studio et produit un clone qui dépasse tout moteur local. Plus votre échantillon est propre et régulier, meilleur est le résultat dans tous les cas.
Faut-il un GPU pour faire tourner XTTS v2 ?
Pour une vitesse utilisable, oui. XTTS v2 tourne sur processeur, mais la génération est assez lente pour gâcher le plaisir au-delà d'un test. Un GPU NVIDIA grand public le ramène proche du temps réel. C'est le coût caché du moteur gratuit : vous échangez un abonnement contre du matériel et de l'installation. ElevenLabs n'a besoin de rien de tout ça, puisque tout tourne sur ses serveurs, ce qui est tout l'intérêt de payer.