talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Influence de facteurs stylistiques, syntaxiques et lexicaux sur la réalisation de la liaison en français

Cécile Fougeron, Jean-Philippe Goldman, Alicia Dart, Laurence Guélat, Clémentine Jeager

Résumé : Les nombreuses recherches portant sur le phénomène de la liaison en français ont pu mettre en évidence l’influence de divers paramètres linguistiques et para-linguistiques sur la réalisation des liaisons. Notre contribution vise à déterminer la contribution relative de certains de ces facteurs en tirant parti d’une méthodologie robuste ainsi que d’outils de traitement automatique du langage. A partir d’un corpus de 5h de parole produit par 10 locuteurs, nous étudions les effets du style de parole (lecture oralisée/parole spontanée), du débit de parole (lecture normale/rapide), ainsi que la contribution de facteurs syntaxiques et lexicaux (longueur et fréquence lexicale) sur la réalisation de la liaison. Les résultats montrent que si plusieurs facteurs étudiés prédisent certaines liaisons, ces facteurs sont souvent interdépendants et ne permettent pas de modéliser avec exactitude la réalisation des liaisons.

Abstract : Various studies on liaison phenomena in French have shown the influence of several linguistics as well as para-linguistics factors on liaison realization. In this study we aim at determining the relative contribution of certain of these factors by using a robust methodology and tools used in automatic language processing. In a 5 hours speech corpus, produced by 10 speakers, we study the effect of speech style (oral reading/spontaneous speech), speech rate, as well as the contribution of syntactic and lexical (word length and frequency) factors on liaison realization. Results show that even if several factors can contribute to predict some liaisons, these factors are often interdependant and do not allow a sufficient prediction of liaison realization.

Mots clés : liaison, lecture, spontané, débit de parole, longueur, fréquence lexicale