XTTS v2 vs ElevenLabs : open source contre le cloud (2026)

XTTS v2 contre ElevenLabs, tout tient à un arbitrage honnête : voulez-vous une voix qui tourne gratuitement sur votre machine, ou le chemin le plus simple vers le rendu le plus naturel du marché. Nous avons utilisé les deux pour du vrai travail, de la narration et des clones de voix rapides, et aucun ne gagne proprement. XTTS v2 est open source, tourne hors ligne, ne coûte rien au mot, et clone une voix à partir de quelques secondes d'audio. ElevenLabs sonne un peu plus humain, parle plus de langues, répond plus vite, et vous donne des droits commerciaux clairs dès que vous payez. Le piège que la plupart des comparatifs oublient, c'est la licence, et c'est souvent ce qui tranche. Voici le tableau complet, sans faux prix.

The short answer

Choisissez XTTS v2 si vous voulez une voix qui tourne gratuitement et hors ligne sur votre propre GPU, garde chaque mot privé, et clone à partir de quelques secondes d'audio, et que votre usage est personnel ou de recherche, car les poids du modèle sont non commerciaux. Choisissez ElevenLabs si vous publiez ou monétisez : il sonne un peu plus humain, répond plus vite, parle plus de langues, et vous donne des droits commerciaux clairs dès que vous payez.

Local + gratuitXTTS v2

Cloud + payantElevenLabs

~94%qualité XTTS vs Eleven

Carte de réponse : XTTS v2 est local, gratuit, privé, hors ligne et clone à partir de six secondes, mais ses poids sont non commerciaux ; ElevenLabs est cloud, payant, un peu plus naturel, plus faible en latence, plus de langues, et clair côté commercial dès que vous payez. — Toute la décision sur une carte. Gratuit et privé, ou peaufiné et clair côté commercial. PNG

On y arrive comme la plupart des gens : on a besoin d'une voix pour quelque chose, une vidéo, un tutoriel, un prototype qui parle, et on découvre que le terrain s'est réduit à deux noms qui reviennent sans cesse. ElevenLabs, le service cloud que tout le monde prend comme référence, et XTTS v2, le modèle open source de Coqui que vous faites tourner vous-même. Ils résolvent le même problème par les deux bouts. L'un est un abonnement qui marche tout seul, l'autre un téléchargement gratuit qui réclame un GPU et un après-midi. Nous avons diffusé du vrai audio avec les deux, donc voici le comparatif qu'on aurait aimé lire en premier. Les prix côté ElevenLabs bougent, alors nous décrivons la forme des offres et vous renvoyons à leur page pour les chiffres du moment, plutôt que de vous donner des montants qui vieillissent mal.

Le verdict rapide

Si vous survolez, voici la version courte, selon qui vous êtes.

Vous êtes...	Le choix	Pourquoi
Amateur, étudiant ou chercheur	XTTS v2	Gratuit, privé, hors ligne, génération illimitée sur votre GPU
En train de publier ou monétiser	ElevenLabs	Top qualité, zéro installation, et une licence commerciale claire
En train de bâtir une appli temps réel	ElevenLabs (Flash)	Une latence sous les 100 ms que le local n'atteint pas
Tenu à la confidentialité (cloud interdit)	XTTS v2	Rien ne quitte jamais votre machine, point
En train de livrer un produit payant à petit budget	Ni l'un ni l'autre, élargissez	Les poids de XTTS sont non commerciaux ; prenez plutôt Piper ou Kokoro

Cette dernière ligne est celle qui surprend, et on y revient plus bas, car c'est le détail qui tranche discrètement beaucoup de projets.

Côte à côte

Le même comparatif en tableau, sur ce qui décide vraiment. Lisez deux fois la ligne licence.

	XTTS v2 (Coqui)	ElevenLabs
Où ça tourne	Votre matériel, totalement hors ligne	Le cloud, internet requis
Coût	Gratuit à faire tourner (vous payez en GPU)	Palier gratuit d'éval, puis offres à l'usage
Qualité du rendu	Excellente, ~94% d'ElevenLabs en tests ouverts	La référence, un peu plus naturel et expressif
Langues	17	Environ 32 sur Multilingual v2, plus sur le dernier modèle
Clonage de voix	Dès ~6 s d'audio, 15 à 30 s c'est mieux	Clone instantané dès ~1 min, clone pro sur séance
Latence	Selon votre GPU, croît avec la longueur	Très basse, le modèle Flash est sous ~75 ms
Confidentialité	Totale, aucun audio ne quitte la machine	L'audio est traité sur leurs serveurs
Usage commercial	Licence non commerciale, et personne à qui en acheter	Inclus sur toute offre payante
Effort d'installation	Installer, un GPU, un peu de bricolage	S'inscrire et taper

Là où ElevenLabs gagne

S'il est le nom auquel tout le monde se compare, ce n'est pas un hasard. Le rendu de son modèle Multilingual v2, et du modèle plus expressif au-dessus, est vraiment difficile à distinguer d'un vrai enregistrement à vitesse d'écoute normale. La palette d'émotions est plus large, la régularité sur un long script plus solide, et vous y arrivez sans aucune installation : vous collez du texte et ça parle. Il parle plus de langues d'origine, et pour tout ce qui est interactif son modèle Flash répond en bien moins d'un dixième de seconde, ce qu'aucun moteur local sur du matériel grand public n'égalera. Et quand vous payez, les droits commerciaux sont écrits noir sur blanc et à vous, ce qui compte plus qu'on ne le croit jusqu'au jour où un client le demande.

Le coût honnête, c'est exactement cela : un service payant, dans le cloud. Votre texte et votre audio partent sur leurs serveurs, donc c'est exclu là où les données ne peuvent pas sortir des murs. Le palier gratuit sert à l'essayer, pas à diffuser avec : aucun usage commercial, une obligation d'attribution, et pas de clone de voix instantané. Et comme la facturation se fait en crédits d'usage, un mois chargé coûte de l'argent réel. Vous achetez la qualité, la vitesse et le confort, et ils valent vraiment leur prix, mais vous les louez.

Là où XTTS v2 gagne

XTTS v2 gagne sur tout ce que le cloud ne peut pas donner. Il est gratuit à faire tourner : une fois le matériel là, aucun compteur au mot ne tourne, ce qui change la façon de travailler, vous régénérez une phrase vingt fois sans penser au coût. Il tourne entièrement hors ligne, donc c'est la réponse évidente quand la confidentialité ou l'isolement réseau est une exigence ferme, rien de ce que vous tapez ou clonez ne quitte la machine. Il clone une voix dès six secondes d'audio, dans 17 langues. Et la qualité est la surprise : les tests d'écoute indépendants le placent autour de 94 pour cent d'ElevenLabs, ce dernier ne gardant qu'une petite avance sur l'émotion et la régularité. Pour beaucoup de narration, cet écart est dur à entendre.

Le prix à payer est en matériel et en effort. Vous voulez un GPU NVIDIA pour viser le temps réel, le modèle tourne sur processeur mais lentement, et l'installation est une vraie étape, pas un formulaire d'inscription. Et puis il y a la licence, qui mérite sa propre section.

Le piège de licence que personne ne mentionne

C'est ce qui transforme une victoire nette en victoire prudente, et la plupart des comparatifs l'esquivent. Les poids du modèle XTTS v2 sont livrés sous la Coqui Public Model License, qui est non commerciale. Le code autour du modèle est en MPL 2.0, permissive, alors les gens supposent que l'ensemble est libre d'usage commercial. Faux : les poids, la partie qui fabrique réellement la voix, sont le morceau restreint.

Et ça se durcit. Coqui, l'entreprise qui a créé XTTS et la seule à pouvoir vous vendre une licence commerciale, a fermé en janvier 2024. Il n'existe donc plus aucun chemin légal vers une licence commerciale, le vendeur n'existe plus. Le modèle reste libre à télécharger et à utiliser, et un fork communautaire activement maintenu le garde fonctionnel sur les Python et PyTorch actuels, mais la licence sur les poids n'a pas changé. La lecture honnête en 2026 est simple : utilisez XTTS v2 pour le personnel, la recherche et le non-commercial, et ne l'intégrez pas dans un produit que vous vendez.

Si vous avez besoin d'un moteur local que vous pouvez réellement livrer, la bonne nouvelle est qu'il en existe plusieurs aux poids vraiment permissifs : Piper, Kokoro (Apache 2.0) et StyleTTS 2 (MIT) sont les noms à regarder. Ce sont les bons outils quand l'usage est commercial et que vous voulez quand même tout en local. Et si vous voulez une finition au niveau de XTTS sans aucun devoir de licence, une offre payante ElevenLabs est, là encore, la réponse propre.

Faire tourner XTTS v2 en local

Si XTTS v2 est votre choix, voici le peu qu'il faut pour en sortir une voix. Installez le fork communautaire maintenu, pointez-le vers un court échantillon de voix, et choisissez l'une des 17 langues.

Terminal : pip install coqui-tts, puis une commande tts avec le modèle xtts_v2, un fichier voix et une langue pour cloner une voix en local et écrire output.wav, totalement hors ligne. — Tout le chemin local : installer, pointer un échantillon de 6 secondes, choisir une langue, obtenir un wav. Rien ne quitte la machine. PNG

La qualité de votre clone tient presque entièrement à l'échantillon. Un enregistrement propre et régulier de 15 à 30 secondes, une seule voix, pas de musique, pas d'écho de pièce, bat un échantillon plus long et brouillon à tous les coups. C'est vrai pour ElevenLabs aussi, donc si vous comptez cloner une voix, ça vaut la peine d'enregistrer l'échantillon proprement une bonne fois.

Alors, lequel choisir ?

En enlevant tout le reste, il y a deux cas nets. Si votre travail est personnel, de recherche, ou tout ce dont l'audio ne peut pas toucher le cloud, et que vous avez un GPU, XTTS v2 est une voix gratuite vraiment excellente, tant que vous respectez la licence non commerciale. Si vous publiez ou monétisez, voulez le rendu le plus naturel sans installation, avez besoin de beaucoup de langues ou d'une faible latence, ou voulez simplement des droits commerciaux sans avoir à y penser, ElevenLabs mérite son abonnement.

Pour la plupart de ceux qui lisent ceci et fabriquent quelque chose à diffuser dans le monde, cela pointe vers ElevenLabs, avec XTTS v2 comme superbe option gratuite pour tout ce qui est privé et personnel. Et si vous livrez un produit payant à budget serré, souvenez-vous de la troisième porte : un moteur local sous licence permissive comme Piper ou Kokoro. La bonne voix dépend entièrement de ce que vous en faites, et c'est exactement ainsi que ça devrait être.

Sources et pour aller plus loin

Questions fréquentes

Est-ce que XTTS v2 vaut ElevenLabs ?

C'est plus proche qu'on ne le croit. Dans les tests d'écoute indépendants, XTTS v2 atteint environ 94 pour cent de la qualité d'ElevenLabs, ce dernier gardant une petite avance sur la palette d'émotions et la régularité. Pour beaucoup de narration et de clonage de voix, l'écart est difficile à entendre à vitesse normale. Là où ElevenLabs reste devant, c'est la latence et son clonage de voix professionnel, entraîné à partir d'une vraie séance d'enregistrement, qui dépasse tout moteur local. Donc XTTS v2 suffit pour la plupart des usages, ElevenLabs est le choix sûr quand le rendu doit être irréprochable.

Puis-je utiliser XTTS v2 en usage commercial ?

Considérez que non. Les poids du modèle XTTS v2 sont sous licence Coqui Public Model License, qui interdit l'usage commercial, même si le code autour est en MPL 2.0, permissive. Coqui, l'entreprise, a fermé en janvier 2024 : il n'y a donc plus personne pour vous vendre une licence commerciale. Si vous voulez un moteur local intégrable dans un produit payant, regardez Piper, Kokoro ou StyleTTS 2, dont les poids sont permissifs (MIT ou Apache). Pour du commercial avec une finition au niveau de XTTS et zéro risque de licence, une offre payante ElevenLabs est la réponse propre.

ElevenLabs est-il gratuit ?

Il existe une offre gratuite, mais pour l'évaluation seulement. Elle donne un petit budget de crédits mensuel, aucun droit commercial, et impose d'attribuer ElevenLabs dans tout contenu public, et le clonage de voix instantané est désactivé. Dès que vous voulez publier ou monétiser, il faut une offre payante, qui débloque aussi la licence commerciale et le clonage de voix. Vous pouvez donc le tester gratuitement, mais vous ne pouvez pas diffuser légalement de l'audio du palier gratuit dans un produit ou une vidéo monétisée.

Combien d'audio faut-il pour cloner une voix ?

Pour XTTS v2, six secondes suffisent, mais quinze à trente secondes d'audio propre donnent un clone nettement meilleur. Le clonage instantané d'ElevenLabs demande environ une minute et se situe dans la même gamme de qualité que XTTS. Son clonage professionnel est un autre niveau : il réclame une trentaine de minutes ou plus d'enregistrement studio et produit un clone qui dépasse tout moteur local. Plus votre échantillon est propre et régulier, meilleur est le résultat dans tous les cas.

Faut-il un GPU pour faire tourner XTTS v2 ?

Pour une vitesse utilisable, oui. XTTS v2 tourne sur processeur, mais la génération est assez lente pour gâcher le plaisir au-delà d'un test. Un GPU NVIDIA grand public le ramène proche du temps réel. C'est le coût caché du moteur gratuit : vous échangez un abonnement contre du matériel et de l'installation. ElevenLabs n'a besoin de rien de tout ça, puisque tout tourne sur ses serveurs, ce qui est tout l'intérêt de payer.

Le verdict rapide

Côte à côte

Là où ElevenLabs gagne

Là où XTTS v2 gagne

Le piège de licence que personne ne mentionne

Faire tourner XTTS v2 en local

Alors, lequel choisir ?

Sources et pour aller plus loin

Questions fréquentes

Pour aller plus loin

Google retire son outil d'image IA d'Earth en un jour

Servo 0.4 signe un record de 558 commits et gagne en compat

Un juge allemand : mémoriser une chanson est une copie

Testeur de compatibilité des API IA

Calculateur de coûts AI

Estimateur de risque de hallucination IA