talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étude de quelques problèmes de phonétisation dans un système de synthèse de la parole à partir de SMS

Rémi Bove

Résumé : Cet article présente une étude dont l’’objectif était d’’améliorer la phonétisation d’’un système de synthèse vocale de SMS en ce qui concerne trois types de problèmes : l’’écriture rébus (chiffres et lettres utilisés pour leur valeur phonique), les abréviations sous forme de squelettes consonantiques et les agglutinations (déterminants ou pronoms collés graphiquement au mot qui suit). Notre approche se base sur l’’analyse d’’un corpus de SMS, à partir duquel nous avons extrait des listes de formes permettant de compléter les lexiques du système, et mis au point de nouvelles règles pour les grammaires internes. Les modifications effectuées apportent une amélioration substantielle du système, bien qu’’il reste, évidemment, de nombreuses autres classes de problèmes à traiter.

Abstract : This article presents a study whose goal is to improve the grapheme-to-phoneme component of an SMS-to-speech system. The three types of problems tackled in the study are: rebus writing (digits and letters used for their phonetic value), consonant skeleton abbreviations and agglutinations (determiner or pronouns merged with the next word). Our approach is based on the analysis of an SMS corpus, from which we extracted lists of forms to enhance the system’’s lexicons, and developed new grammatical rules for the internal grammars. Our modifications result in a substantial improvement of the system, although, of course, there remain many other categories of problems to address.

Mots clés : SMS, phonétisation, synthèse de la parole

Keywords : SMS, phonetisation, speech synthesis