D’où ils viennent
ElevenLabs a été fondée en 2022 à Londres par Piotr Dąbkowski (ex-Google ML engineer) et Mati Staniszewski (ex-Palantir). L’histoire raconte qu’ils sont partis du constat que les doublages de films étrangers en polonais (leur langue natale) étaient invariablement médiocres : des voix plates, du timing décalé, de la perte d’émotion. Ils ont voulu bâtir une IA qui ferait mieux qu’un studio de doublage moyen.
L’approche technique a été marquante dès le départ : modèles entraînés pour préserver la prosodie, l’émotion et l’accent — pas seulement la prononciation. La levée Series A en 2023 (19 millions USD, Andreessen Horowitz en lead) a été suivie d’une Series B en 2024 (Sequoia, NEA). En 2026, la valorisation tourne autour du milliard USD, restée privée.
Le siège est à Londres, avec une présence à New York. L’équipe technique reste relativement petite (~100 personnes) — la marque de fabrique des startups IA modernes.
Ce que c’est vraiment
ElevenLabs est une plateforme de synthèse vocale IA accessible par :
- elevenlabs.io — l’interface web (créer des voix, générer de l’audio, dubber des vidéos)
- API — pour brancher la synthèse vocale dans tes produits ou pipelines
- Voice Library — bibliothèque publique de voix partagées par la communauté
- Apps mobiles (iOS/Android) — pour générer en mobilité
Capacités principales :
- Text-to-Speech (TTS) — convertir n’importe quel texte en audio, dans 32+ langues, avec choix de voix
- Voice Cloning — Instant Cloning (1 min d’audio source) ou Professional Cloning (30 min - 3h d’audio studio)
- Dubbing — traduire et resynchroniser une vidéo dans une autre langue en préservant la voix originale
- Conversational AI — voix temps réel pour les agents/chatbots vocaux
- Studio — outil de production audio long format (podcasts, livres audio)
- Sound Effects — génération d’effets sonores à partir d’un texte descriptif
Modèles : Multilingual v2 (le défaut, 32 langues), Turbo v2 (latence basse), Eleven English v1 (legacy, anglais uniquement).
Comment ça s’utilise
Le flux typique sur Creator (22 USD) :
- Tu uploades 1 minute d’audio de ta voix (ou choisis une voix de la bibliothèque).
- Instant Cloning génère ton clone vocal en quelques secondes.
- Tu colles ton script, tu sélectionnes la voix, tu génères l’audio.
- Tu télécharges le MP3 (ou WAV via API).
Pour la production professionnelle (livre audio, podcast, narration), tu passes sur Pro ou Scale — accès à la qualité audio Pro, plus de crédits, et clonage professionnel multi-voix.
Coûts variables : le système de crédits consomme proportionnellement à la longueur du texte. Un podcast de 30 minutes (~3000 mots) consomme environ 18 000 crédits avec Multilingual v2. Le plan Creator (121k crédits) tient pour 6-7 podcasts mensuels ; Pro (600k) pour de la production régulière.
Pour qui c’est fait
- Podcasteurs et créateurs audio — pour transformer ton blog en podcast, ou narrer un script sans louer un studio.
- Producteurs de contenu YouTube — voix off pour vidéos faceless, narrations multilingues.
- Studios de doublage — production de versions localisées de vidéos (dubbing) à un coût marginal vs un studio traditionnel.
- Développeurs voix IA — agents conversationnels, chatbots vocaux, IVR pro, accessibilité web (via API).
Moins adapté : la musique avec voix chantée (Suno ou Udio sont conçus pour ça), les usages très haut volume (au-delà de 1M crédits/mois, examiner les API alternatives), et les besoins de voix avec accent ultra-spécifique non couvert par la bibliothèque (le clonage Pro résout, mais demande du temps).
Le verdict de la Taverne
J’utilise ElevenLabs pour les ads LeadLoup et les expérimentations vocales. C’est la voix IA la plus naturelle du marché en 2026.
Ce qui me garde dessus :
- La qualité vocale est sans rivale. Le naturel de la prosodie, la gestion des pauses, l’émotion — aucun autre outil ne fait mieux en 2026. Murf et Play.HT restent derrière sur ce critère.
- Le clonage Instant à 1 minute fonctionne vraiment. Tu uploades un sample décent, tu obtiens une voix qui sonne comme toi (avec ses limites — l’émotion reste plate).
- Le support multilingue avec préservation de l’accent. Tu peux faire dire la même chose à ta voix clonée en anglais, en français, en espagnol — l’accent reste cohérent, ce qui est rare.
- Le dubbing automatique. Pour transformer une vidéo anglaise en version française avec ta voix originale resynchronisée, ElevenLabs est la seule solution grand public crédible.
Ce qui m’agace :
- Le système de crédits grimpe vite. Tu démarres à 22 USD/mois sur Creator, et tu te retrouves à 99 USD (Pro) après un mois de production intensive sans avoir vu venir.
- La latence sur les voix custom haute qualité. Pour une voix professionnelle clonée, comptes 30-60 secondes par minute d’audio généré.
- La bibliothèque de voix gratuites limitée. Les meilleures voix communautaires sont souvent payantes (modèle marketplace), ce qui ajoute au coût total.
- Pas de programme affiliate consumer. Comme pour Cursor — je recommande pour le mérite uniquement.
Bottom line : si tu produis du contenu audio régulièrement (podcast, YouTube faceless, livre audio), ElevenLabs justifie son ticket. Pour usage occasionnel, le plan Starter à 6 USD permet de tester sans clonage de voix.
Au Québec
Facturation USD via Stripe (compte ~38 % de change pour CAD). Pas de TPS/TVQ ajoutée à la facture. Interface en anglais seulement, mais la synthèse vocale en français est de qualité native — meilleure que Google TTS ou Azure Speech sur l’intonation et la prosodie françaises.
Spécifique QC : pour cloner ta voix avec ton accent québécois, fournis l’audio source avec ton accent naturel (pas un texte lu en français hexagonal). ElevenLabs préserve les particularités régionales si elles sont dans l’échantillon source. Pour créer du contenu audio destiné au marché québécois (publicités radio, narration de vidéos corpos, podcasts), c’est l’outil avec la meilleure fidélité française disponible en 2026.