Vous pouvez imiter la voix de n’importe quelle femme ou homme avec cette nouvelle IA folle

Début janvier, Microsoft a levé le voile sur VALL-E, un modèle d’intelligence artificielle de synthèse vocale capable d’imiter une voix à partir d’un enregistrement de seulement 3 secondes.

Alors, oui, cette technologie présente un immense potentiel, mais elle soulève également des préoccupations en matière d’usurpation d’identité. VALL-E a été entraîné sur la colossal bibliothèque sonore de Meta, LibriLight, forte de 60 000 heures de discours en anglais réalisés par pas moins de 7000 locuteurs différents, principalement issus des livres audio du domaine public LibriVox.

Y a pas à dire, les chercheurs bossent dur pour améliorer les performances de VALL-E en matière de prosodie et de style d’expression. Ceci dit, il faut admettre que cette avancée nous donne un aperçu saisissant de l’avenir de la synthèse vocale et de ce qui pourrait bien faire partie de notre quotidien dans les prochaines années.

Mais alors, qu’est-ce que VALL-E exactement ? Eh bien, il s’agit d’un tout nouveau modèle d’intelligence artificielle développé par Microsoft, qui permet d’imiter une voix à partir d’un échantillon de seulement 3 secondes. Ce « modèle de langage à codecs neuronaux » peut reproduire le ton, le timbre et même l’environnement acoustique de l’audio d’origine. Pas mal, hein ?

Entraînement sur des milliers de voix

Pour donner vie à VALL-E, les ingénieurs de Microsoft ont utilisé la fameuse bibliothèque sonore de Meta, LibriLight, avec ses 60 000 heures de discours en anglais et ses 7000 locuteurs différents, la plupart tirés des livres audio du domaine public LibriVox.

« Un entraînement des centaines de fois plus important que pour les systèmes existants », ont justement remarqué les chercheurs.

En lien avec cet article : Space Force Saison 3 : Date de sortie et rumeurs – Va-t-elle sortir, et si oui quand ?

Impressionnante démo disponible sur GitHub

Il y a même une démo de VALL-E, publiée sur GitHub, qui permet de découvrir comment l’IA fonctionne avec divers exemples.

À noter que les chercheurs se donnent pour objectif d’améliorer les performances de VALL-E en matière de prosodie et de style d’expression, même si l’IA semble éprouver quelques difficultés avec certains accents qui ne figurent pas dans la bibliothèque LibriLight.

Risque d’usurpation d’identité

Comme on pouvait s’y attendre, VALL-E soulève également des inquiétudes en raison des risques potentiels d’usurpation d’identité. C’est pourquoi les développeurs de Microsoft ont inclus une note sur l’éthique de leur outil : « Si le modèle est généralisé à des locuteurs invisibles dans le monde réel, il devrait inclure un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix. »

Mais il est bon de souligner que VALL-E n’est pas une nouveauté en soi et que les recherches sur l’imitation de la voix ont été menées depuis plusieurs années. Certaines d’entre elles sont même suffisamment avancées pour alimenter de nombreuses start-ups comme WellSaid, Papercup et Respeecher.

En conclusion, VALL-E est un modèle d’intelligence artificielle de synthèse vocale développé par Microsoft qui permet d’imiter une voix à partir d’un enregistrement de seulement 3 secondes. C’est un bond en avant qui présente un potentiel énorme pour aider les personnes ayant perdu la capacité de parler ou pour délivrer un message de manière plus naturelle.

Même si les développeurs de Microsoft travaillent sur un protocole pour s’assurer que le locuteur approuve l’utilisation de sa voix, il est crucial de garder un œil sur les développements en matière de synthèse vocale pour être sûr que les risques potentiels soient abordés de manière adéquate.

En lien avec cet article : Nous apprenons la bien triste nouvelle pour les fans de Céline Dion : la chanteuse de 55 ans au plus mal

Au final, VALL-E marque une étape clé dans l’évolution de la synthèse vocale et nous donne un aperçu de ce à quoi nous pourrions nous attendre dans les années à venir. Alors, prêts pour le futur ?

Vous pouvez imiter la voix de n’importe quelle femme ou homme avec cette nouvelle IA folle

Entraînement sur des milliers de voix

Impressionnante démo disponible sur GitHub

Risque d’usurpation d’identité

You Might Also Like

How much money The Chase stars actually make from ITV show

Anchorman: The Legend of Ron Burgundy (Movie) Cast

Briefing Board #65: [Soviet SAM Site, La Coloma, Cuba]