Vérification automatique de la voix de locuteurs après resynthèse à l’aide de PPG
Thibault Gaudier, Marie Tahon, Anthony Larcher, Yannick Estève
Résumé : La création de contenu journalistique peut être assistée par des outils technologiques comme la synthèse de parole. Cependant l’éditeur doit avoir la possibilité de contrôler la génération du contenu audio comme la prosodie, la prononciation ou le contenu linguistique. Dans ces travaux, un système de conversion de voix génère un signal de locuteur cible à partir d’une représentation temporelle de type Phonetic PosteriorGrams (PPGs) extraite d’un audio source. Les PPGs démêlent le contenu phonétique du contenu rythmique, et sont généralement considérés indépendants du locuteur. Cet article présente un système de conversion utilisant les PPGs, et son évaluation en qualité audio avec un test perceptif. Nous montrons également qu’un système de vérification du locuteur ne parvient pas à identifier le locuteur source après la conversion, même si le modèle a été entraîné sur des données synthétiques.
Mots clés : synthèse de parole,représentation interprétable de la parole,reconnaissance du locuteur