Espace publicitaire
Google crée un logiciel de traduction qui réplique la voix de l’usager
Alexis Vailles
22 mai 2019
Technologies
2 minutes à lire
1 425
Mis à jour le 22 mai 2019
Le nouveau logiciel permettrait de conserver la voix et le ton d’un usager intacte malgré la traduction.
Il pourrait bientôt ne plus être nécessaire d’engager des acteurs pour doubler les films : la nouvelle innovation de Google permet de traduire directement les paroles d’un usager, en conservant une voix à peu près identique.
Complété le mois dernier, son nouveau logiciel Translatotron n’a été dévoilé au public que la semaine dernière. Et déjà, le résultat impressionne.
Présentement, Google emploie sur ses logiciels de traduction une technologie appelée text-to-speech, qui permet d’écouter un texte écrit à l’écran. D’autres logiciels procèdent plutôt en speech-to-text, où un usager peut voir ses paroles affichées à l’écran.
Translatotron est toutefois une technologie de type speech-to-speech, qui traduit directement à partir de la voix d’un usager.
Une conversion en texte existe toutefois en étape mitoyenne : le logiciel recopie la voix en texte, le traduit, et « lit » cette traduction en reconstituant la voix d’origine de manière synthétique.
[caption id="attachment_85960" align="aligncenter" width="720"] Le schéma fonctionnel du Translatotron, pour une traduction espagnol à anglais (source : Google).
[/caption]
Pour Google, le défi principal était donc de répliquer le même timbre de voix dans le message de sortie traduit que dans le message d’entrée, pour donner l’impression que c’est l’usager directement qui peut s’exprimer dans différentes langues.
C’est avec un spectrogramme, un outil permettant de générer le spectre sonore d’un signal, que l’entreprise y est parvenue. Le spectrogramme permet de détecter les harmoniques de fréquence donnant un son unique à une voix, pour la recréer artificiellement.
Si le processus n’est pas encore parfait, il s’agit d’un pas dans la bonne direction. Déjà, Google dit observer une diminution du nombre d’erreurs dans la traduction, de même qu’un nombre d’étapes moindre du début à la fin.
[caption id="attachment_85962" align="aligncenter" width="720"] Un exemple de signal audio et son spectrogramme (source : Polytechnique de Paris).[/caption]
Il pourrait bientôt ne plus être nécessaire d’engager des acteurs pour doubler les films : la nouvelle innovation de Google permet de traduire directement les paroles d’un usager, en conservant une voix à peu près identique.
Complété le mois dernier, son nouveau logiciel Translatotron n’a été dévoilé au public que la semaine dernière. Et déjà, le résultat impressionne.
Comment ça marche?
Présentement, Google emploie sur ses logiciels de traduction une technologie appelée text-to-speech, qui permet d’écouter un texte écrit à l’écran. D’autres logiciels procèdent plutôt en speech-to-text, où un usager peut voir ses paroles affichées à l’écran.
Translatotron est toutefois une technologie de type speech-to-speech, qui traduit directement à partir de la voix d’un usager.
Une conversion en texte existe toutefois en étape mitoyenne : le logiciel recopie la voix en texte, le traduit, et « lit » cette traduction en reconstituant la voix d’origine de manière synthétique.
[caption id="attachment_85960" align="aligncenter" width="720"] Le schéma fonctionnel du Translatotron, pour une traduction espagnol à anglais (source : Google).
[/caption]
Pour Google, le défi principal était donc de répliquer le même timbre de voix dans le message de sortie traduit que dans le message d’entrée, pour donner l’impression que c’est l’usager directement qui peut s’exprimer dans différentes langues.
C’est avec un spectrogramme, un outil permettant de générer le spectre sonore d’un signal, que l’entreprise y est parvenue. Le spectrogramme permet de détecter les harmoniques de fréquence donnant un son unique à une voix, pour la recréer artificiellement.
Si le processus n’est pas encore parfait, il s’agit d’un pas dans la bonne direction. Déjà, Google dit observer une diminution du nombre d’erreurs dans la traduction, de même qu’un nombre d’étapes moindre du début à la fin.
[caption id="attachment_85962" align="aligncenter" width="720"] Un exemple de signal audio et son spectrogramme (source : Polytechnique de Paris).[/caption]
Articles susceptibles de vous intéresser
Emplois susceptibles de vous intéresser
Québec
Permanent à temps plein
Publié il y a 12 jours
Chibougamau
Permanent à temps plein
Publié il y a 22 jours
Matagami
Permanent à temps plein
Publié il y a 28 jours
Mes sauvegardes
Vous devez être connecté pour ajouter un article aux favoris
Connexion ou Créez un compte
Emploi favori
Vous devez être connecté pour pouvoir ajouter un emploi aux favories
Connexion
ou Créez un compte