talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etude des relations entre pauses et ponctuations pour la synthèse de la parole à partir de texte

Estelle Campione, Jean Véronis

Résumé : Nous présentons dans cette communication la première étude à grande échelle de la relation entre pauses et ponctuations, à l’aide de l’analyse de plusieurs milliers de pauses dans un corpus comportant près de 5 heures de parole lue en cinq langues, faisant intervenir 50 locuteurs des deux sexes. Nos résultats remettent en cause l’idée reçue de rapports bi-univoques entre pauses et ponctuations. Nous mettons en évidence une proportion importante de pauses hors ponctuation, qui délimitent des constituants, mais aussi un pourcentage élevé de ponctuations faibles réalisées sans pauses. Nous notons également une très grande variabilité inter-locuteur, ainsi que des différences importantes entre langues. Enfin, nous montrons que la durée des pauses est liée au sexe des locuteurs.

Abstract : We present in this paper the first large-scale study of pause-punctuation relationships, based on the analysis of several thousand pauses in a corpus consisting of nearly 5 hours of read speech involving 50 male and female readers in five languages. Our results call into question the generally accepted idea of a one-to-one relationship between pauses and punctuation. We observe a large proportion of pauses outside punctuations (which mark phrases), but also a high percentage of weak punctuations with no pause. We also note a very high interspeaker variability, as well as important differences among languages.

Mots clés : Synthèse de la parole à partir de textes, pauses, ponctuation

Keywords : Text-to-speech synthesis, pauses, punctuation