Technologies Google crée un logiciel de traduction qui réplique la voix de l’usager

Google crée un logiciel de traduction qui réplique la voix de l’usager

Le nouveau logiciel permettrait de conserver la voix et le ton d’un usager intacte malgré la traduction.

Il pourrait bientôt ne plus être nécessaire d’engager des acteurs pour doubler les films : la nouvelle innovation de Google permet de traduire directement les paroles d’un usager, en conservant une voix à peu près identique.

Complété le mois dernier, son nouveau logiciel Translatotron n’a été dévoilé au public que la semaine dernière. Et déjà, le résultat impressionne.

 

Comment ça marche?


Présentement, Google emploie sur ses logiciels de traduction une technologie appelée text-to-speech, qui permet d’écouter un texte écrit à l’écran. D’autres logiciels procèdent plutôt en speech-to-text, où un usager peut voir ses paroles affichées à l’écran.

Translatotron est toutefois une technologie de type speech-to-speech, qui traduit directement à partir de la voix d’un usager.

Une conversion en texte existe toutefois en étape mitoyenne : le logiciel recopie la voix en texte, le traduit, et « lit » cette traduction en reconstituant la voix d’origine de manière synthétique.

[caption id="attachment_85960" align="aligncenter" width="720"] Le schéma fonctionnel du Translatotron, pour une traduction espagnol à anglais (source : Google).
[/caption]

 

Pour Google, le défi principal était donc de répliquer le même timbre de voix dans le message de sortie traduit que dans le message d’entrée, pour donner l’impression que c’est l’usager directement qui peut s’exprimer dans différentes langues.

C’est avec un spectrogramme, un outil permettant de générer le spectre sonore d’un signal, que l’entreprise y est parvenue. Le spectrogramme permet de détecter les harmoniques de fréquence donnant un son unique à une voix, pour la recréer artificiellement.

Si le processus n’est pas encore parfait, il s’agit d’un pas dans la bonne direction. Déjà, Google dit observer une diminution du nombre d’erreurs dans la traduction, de même qu’un nombre d’étapes moindre du début à la fin.

[caption id="attachment_85962" align="aligncenter" width="720"] Un exemple de signal audio et son spectrogramme (source : Polytechnique de Paris).[/caption]