Cette nouvelle IA de Microsoft qui vous permet d’imiter la voix de n’importe qui avec 3 secondes d’enregistrement seulement

Début janvier, Microsoft a présenté VALL-E, un modèle d’intelligence artificielle de synthèse vocale capable d’imiter une voix à partir d’un enregistrement de 3 secondes seulement.

Cette technologie présente un potentiel immense, mais suscite également des inquiétudes quant à son utilisation pour des usurpations d’identité. VALL-E est entraîné sur la bibliothèque sonore de Meta, LibriLight, qui contient 60 000 heures de discours en anglais réalisés par 7000 locuteurs différents, principalement tirés des livres audio du domaine public LibriVox.

Les chercheurs travaillent actuellement pour améliorer les performances du modèle en matière de prosodie et de style d’expression. Malgré tout, VALL-E offre un aperçu de l’avenir de la synthèse vocale et de ce à quoi nous pourrions nous attendre dans les prochaines années.

VALL-E est un nouveau modèle d’intelligence artificielle de synthèse vocale développé par Microsoft, qui permet d’imiter une voix à partir d’un échantillon de seulement 3 secondes. Ce « modèle de langage à codecs neuronaux » peut reproduire le ton, le timbre et même l’environnement acoustique de l’audio d’origine.

Entraînement sur des milliers de voix

Pour mettre au point VALL-E, les ingénieurs de Microsoft ont utilisé la bibliothèque sonore de Meta, LibriLight, qui contient 60 000 heures de discours en anglais réalisés par 7000 locuteurs différents, principalement tirés des livres audio du domaine public LibriVox.

« Un entraînement des centaines de fois plus important que pour les systèmes existants », soulignent les chercheurs.

Impressionnante démo disponible sur GitHub

La démo de VALL-E, publiée sur GitHub, permet d’observer le fonctionnement de l’IA avec divers exemples.

En lien avec cet article :  Trottinette électrique : 3 bonnes raisons de succomber à ce mode de transport écologique et économique !

Les chercheurs s’efforcent actuellement d’améliorer les performances du modèle en matière de prosodie et de style d’expression. Il est à noter que l’IA aurait du mal avec certains accents qui ne sont pas répertoriés dans la bibliothèque LibriLight.

Risque d’usurpation d’identité

Tout comme ChatGPT, VALL-E suscite des inquiétudes en raison des risques potentiels d’usurpation d’identité. Les développeurs de Microsoft ont inclus une note sur l’éthique de leur outil, où ils assurent que « si le modèle est généralisé à des locuteurs invisibles dans le monde réel, il devrait inclure un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix ».

Cependant, il est important de noter que VALL-E n’est pas révolutionnaire et que les recherches sur l’imitation de la voix ont été menées depuis plusieurs années, certaines étant suffisamment avancées pour alimenter de nombreuses start-ups comme WellSaid, Papercup et Respeecher.

En conclusion, VALL-E est un modèle d’intelligence artificielle de synthèse vocale développé par Microsoft qui permet d’imiter une voix à partir d’un enregistrement de seulement 3 secondes. Cette technologie présente un potentiel énorme pour aider les personnes ayant perdu la capacité de parler ou pour délivrer un message de manière plus naturelle.

Cependant, il est important de noter les inquiétudes liées à l’utilisation de cette technologie pour des usurpations d’identité. Les développeurs de Microsoft assurent qu’ils travaillent sur un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix, mais il est important de continuer à surveiller les développements en matière de synthèse vocale pour garantir que les risques potentiels soient abordés de manière adéquate.

En lien avec cet article :  Royaume-Uni : interdiction d'utilisation d'un téléphone portable au volant

En tout état de cause, VALL-E est une étape importante dans l’évolution de la synthèse vocale et offre un aperçu de ce à quoi nous pourrions nous attendre dans les années à venir.

 

 

Germain
Contact

Written by Germain

Germain a toujours eu un penchant pour les nouvelles technologies et l'économie numérique. Il a suivi avec intérêt l'évolution de la blockchain et des monnaies numériques depuis leur émergence. Avec une approche prudente et éducative, Germain est devenu une source d'inspiration pour ceux qui cherchent à comprendre et à participer au monde de la cryptomonnaie sans expertise technique approfondie. Il continue d'explorer ce domaine en évolution, fasciné par son potentiel et son impact sur l'avenir de la finance.