Début janvier, Microsoft a présenté VALL-E, un modèle d’intelligence artificielle de synthèse vocale capable d’imiter une voix à partir d’un enregistrement de 3 secondes seulement.
Cette technologie présente un potentiel immense, mais suscite également des inquiétudes quant à son utilisation pour des usurpations d’identité. VALL-E est entraîné sur la bibliothèque sonore de Meta, LibriLight, qui contient 60 000 heures de discours en anglais réalisés par 7000 locuteurs différents, principalement tirés des livres audio du domaine public LibriVox.
Les chercheurs travaillent actuellement pour améliorer les performances du modèle en matière de prosodie et de style d’expression. Malgré tout, VALL-E offre un aperçu de l’avenir de la synthèse vocale et de ce à quoi nous pourrions nous attendre dans les prochaines années.
VALL-E est un nouveau modèle d’intelligence artificielle de synthèse vocale développé par Microsoft, qui permet d’imiter une voix à partir d’un échantillon de seulement 3 secondes. Ce « modèle de langage à codecs neuronaux » peut reproduire le ton, le timbre et même l’environnement acoustique de l’audio d’origine.
Entraînement sur des milliers de voix
Pour mettre au point VALL-E, les ingénieurs de Microsoft ont utilisé la bibliothèque sonore de Meta, LibriLight, qui contient 60 000 heures de discours en anglais réalisés par 7000 locuteurs différents, principalement tirés des livres audio du domaine public LibriVox.
« Un entraînement des centaines de fois plus important que pour les systèmes existants », soulignent les chercheurs.
Impressionnante démo disponible sur GitHub
La démo de VALL-E, publiée sur GitHub, permet d’observer le fonctionnement de l’IA avec divers exemples.
Les chercheurs s’efforcent actuellement d’améliorer les performances du modèle en matière de prosodie et de style d’expression. Il est à noter que l’IA aurait du mal avec certains accents qui ne sont pas répertoriés dans la bibliothèque LibriLight.
Risque d’usurpation d’identité
Tout comme ChatGPT, VALL-E suscite des inquiétudes en raison des risques potentiels d’usurpation d’identité. Les développeurs de Microsoft ont inclus une note sur l’éthique de leur outil, où ils assurent que « si le modèle est généralisé à des locuteurs invisibles dans le monde réel, il devrait inclure un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix ».
Cependant, il est important de noter que VALL-E n’est pas révolutionnaire et que les recherches sur l’imitation de la voix ont été menées depuis plusieurs années, certaines étant suffisamment avancées pour alimenter de nombreuses start-ups comme WellSaid, Papercup et Respeecher.
En conclusion, VALL-E est un modèle d’intelligence artificielle de synthèse vocale développé par Microsoft qui permet d’imiter une voix à partir d’un enregistrement de seulement 3 secondes. Cette technologie présente un potentiel énorme pour aider les personnes ayant perdu la capacité de parler ou pour délivrer un message de manière plus naturelle.
Cependant, il est important de noter les inquiétudes liées à l’utilisation de cette technologie pour des usurpations d’identité. Les développeurs de Microsoft assurent qu’ils travaillent sur un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix, mais il est important de continuer à surveiller les développements en matière de synthèse vocale pour garantir que les risques potentiels soient abordés de manière adéquate.
En tout état de cause, VALL-E est une étape importante dans l’évolution de la synthèse vocale et offre un aperçu de ce à quoi nous pourrions nous attendre dans les années à venir.
- Comment le fils de Christine Lagarde a perdu beaucoup d’argent en investissant dans les cryptomonnaies - 1 décembre 2023
- Comment le fils de Christine Lagarde a perdu 60% de ses investissements crypto : son témoignage accablant sur l’indifférence maternelle - 30 novembre 2023
- Les défis financiers des enfants de personnalités publiques : le cas de Christine Lagarde et son fils dans l’univers des cryptomonnaies - 29 novembre 2023