Générer, cloner ou modifier des voix avec l’intelligence artificielle ?
Depuis l’arrivée le ChatGPT en novembre 2022, l’intelligence artificielle est passée dans une autre dimension. Si le modèle de langage GPT existait déjà depuis de nombreuses années, la nouvelle version et son utilisation par OpenAI a révolutionné le domaine.
L’adoption du chatbot ChatGPT a été massive en très peu de temps et tous les yeux se sont rivés sur les innovations IA. En quelques mois, des dizaines, voire des centaines de projets ont vu le jour grâce aux technologies actuelles.
Le chatbot a été la plus courante utilisation jusqu’ici, suivi par la création d’images. Cependant, de nombreux autres services se sont développés, tels que les résumés d’articles ou même de vidéos, la prise de notes automatiques lors de réunions, ou encore la création, l’imitation, le clonage de voix humaines.
Vous avez peut-être déjà vu des publications sur les réseaux sociaux de chansons dans lesquelles la voix d’un chanteur était remplacée par un autre (par exemple, Freddy Mercury qui chante sur une chanson de Michael Jackson). Si ce n’est pas encore parfait, c’est déjà impressionnant.
Il existe plusieurs services qui permettent d’exécuter ce genre de tâches, des intelligences artificielles génératives de voix.
Dans cet article, nous allons vous présenter comment générer, cloner, imiter des voix grâce au site ElevenLabs.
Présentation de ElevenLabs
ElevenLabs est le service de génération de voix par IA le plus connu actuellement. La société est très récente et a été lancée en 2022 par un ex-ingénieur de Google en machine learning ainsi qu’un autre fondateur.
Le service est déjà disponible mais reste en constant développement et présente des limites. Par exemple, par rapport au nombre de langues disponibles, ou à la précision du clonage de voix.
Les services ElevenLabs
À l’heure actuelle, le service ElevenLabs se décline en 2 fonctionnalités :
- La synthèse vocale
- Le VoiceLab
La synthèse vocale consiste en un service qui permet de faire lire un texte à une voix, que l’on peut choisir avec plusieurs réglages. La voix peut lire le texte d’une manière naturelle, en y mettant les émotions et le ton correspondants.
Pour l’instant, la fonctionnalité est disponible en plusieurs langues : l’anglais, le français, le polonais, l’espagnol, l’italien, le portugais et l’hindi. Toutes les autres langues que l’anglais sont encore considérées au stade “expérimental” et peuvent présenter des défauts.
En principe, le texte doit être lu avec l’accent approprié dans chaque langue.
Le VoiceLab est la fonctionnalité qui permet de créer des voix à partir de zéro, ou de cloner des voix existantes sur base de contenus audios. La génération de nouvelles voix permet à l’utilisateur de choisir plusieurs paramètres pour créer une voix sur mesure en fonction du genre, de l’âge et de l’accent.
Le clonage permet d’uploader des fichiers audios avec la voix de quelqu’un, et ElevenLabs permet instantanément de pouvoir utiliser la voix pour lui faire dire ce qu’on veut.
Il y a cependant un mode professionnel qui se base sur plus de 30 minutes de contenus pour recréer une voix à la perfection. Cette fonctionnalité devrait arriver au Q3 2023. Pour l’instant, 1 minute de contenu audio est suffisant pour cloner la voix instantanément.
Inscription et prix ElevenLabs
L’inscription ElevenLabs se fait en quelques clics seulement. Vous pouvez vous inscrire directement grâce à votre compte Google, Facebook ou votre adresse email.
Le service d’ElevenLabs propose une version gratuite qui inclut l’utilisation de certains services, avec une limite de 10 000 caractères par mois. Il y a ensuite plusieurs formules avec des nombres de caractères supérieurs.
L’offre Starter propose une réduction de 80% pour le paiement du premier mois, soit 1$ pour la première mensualité.
Attention
Le clonage de voix n’est disponible qu’à partir de la formule Starter, à 5$ par mois.
Créer une voix avec l’intelligence artificielle
Une fois inscrit, on accède directement aux différents services. L’onglet “Speech Synthesis” permet de choisir une voix pré-enregistrée, et de lui faire lire un texte.
De base, les voix sont paramétrées en anglais, mais on peut sélectionner le mode “Eleven Mutlilingual” pour les faire parler en français, ou dans une autre langue.
Il est également possible de modifier certains paramètres des voix, comme la stabilité et la clarté.
En plus des voix pré-enregistrées, on peut sélectionner “Add voice” pour ajouter des voix qu’on a généré au préalable, ou qu’on a cloner.
Générer une voix ou la cloner
Pour générer et cloner une voix, il faut se rendre dans “VoiceLab”. Là, on peut designer une voix sur base de différents paramètres. Malheureusement, cette fonctionnalité n’est actuellement disponible qu’en anglais.
Il est cependant possible de créer une voix sur base d’un texte en français, mais on est obligé de sélectionner un accent en amont, et ils sont tous anglophones. La solution est de baisser la force de l’accent au minimum, mais le rendu final est quand même un français avec un accent anglais. Cela peut convenir si c’est le but recherché !
On a également accès à la Voice Library qui est le répertoire de toutes les voix créées par la communauté.
Pour cloner la voix de quelqu’un, il faut cliquer sur “Instant Voice Cloning”. On arrive ensuite sur un petit formulaire où il suffit d’entrer le nom de la voix qu’on va créer, ainsi que des fichiers audios.
Il faut que les fichiers fassent au minimum 1 minute au total pour être traités. Plus il y a de contenus, mieux c’est, mais il faut surtout faire attention à la qualité des contenus. S’il y a du bruit en fond, que ce soit des bruits de voiture ou autres, ça se ressent tout de suite dans le rendu final.
Lorsque vous avez sélectionné les fichiers audios (jusqu’à 25), vous avez la possibilité d’écrire une courte description pour aider l’IA à comprendre la voix de la personne. Après plusieurs tests, on ne dirait pas que ce champ fasse une grande différence.
Les voix clonées se retrouvent sur la page VoiceLab et vous pouvez à tout moment les éditer (supprimer, ajouter des contenus audio).
Pour les utiliser, il suffit de se rendre dans Speech Synthesis et de sélectionner la voix clonée dans le menu déroulant.
Enregistrer des textes et les retrouver sur le compte
Lorsque vous avez généré la dictée d’un texte, vous avez un player qui s’affiche en bas de l’écran pour dire si la génération est bonne, mauvaise et pour enregistrer la prise. En effet, on peut “Generate” plusieurs fois le même texte de la même voix et obtenir des résultats totalement différents.
D’ailleurs, avec des audios de faible qualité, il est fréquent que la voix se détériore avec les essais.
Vous pouvez à tout moment retrouver tous les fichiers de voix générées et clonées par IA dans l’onglet “History”. Vous pouvez alors les télécharger.
Notre avis sur la génération de voix par IA d’ElevenLabs
Les IA font une avancée très rapide et fulgurante dans notre société. La génération de voix par intelligence artificielle nous envoie complètement dans une nouvelle dimension avec des tonnes de nouvelles possibilités.
La solution d’ElevenLabs est pour le moment l’une des plus performantes. D’autres services tels que Play.ht proposent des fonctionnalités similaires.
En tant que francophone, l’un des points négatifs majeurs d’ElevenLabs et toutes les technologies IA, est qu’elles sont toujours créées et développées en anglais d’abord et que les versions françaises ne sont pas encore toujours au point.
Cependant, nous sommes aux prémices des intelligences artificielles génératives pour la voix et l’avancée est déjà impressionnante. Il ne fait aucun doute que dans quelques mois, ces services seront très puissants et presque parfaits.
Notre avis ElevenLabs est que les fonctionnalités sont tout à fait correctes et qu’il est possible de créer de superbes choses. En tant que francophone, il faudra peut-être attendre un peu avant d’avoir un résultat très satisfaisant, mais vous pouvez déjà avoir un rendu très honnête en clonant votre propre voix ou celle d’une autre personne.
Attention tout de même à donner une qualité excellente d’audio source, car un peu de bruits superflus rend tout de suite le rendu beaucoup moins bon.