talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etude des répétitions en français parlé spontané pour les technologies de la parole

Sandrine Henry

Résumé : Cet article rapporte les résultats d’une étude quantitative des répétitions menée à partir d’un corpus de français parlé spontané d’un million de mots, étude réalisée dans le cadre de notre première année de thèse. L’étude linguistique pourra aider à l’amélioration des systèmes de reconnaissance de la parole et de l'étiquetage grammatical automatique de corpus oraux. Ces technologies impliquent la prise en compte et l’étude des répétitions de performance (en opposition aux répétitions de compétence, telles que nous nous sujet + complément) afin de pouvoir, par la suite, les « gommer » avant des traitements ultérieurs. Nos résultats montrent que les répétitions de performance concernent principalement les mots-outils et apparaissent à des frontières syntaxiques majeures.

Abstract : This article is a report of a quantitative study of repetitions based on a corpus of a onemillion- word spontaneous spoken French, conducted during the first year of our PhD thesis. This linguistic study can contribute to the improvement of speech recognition and spoken French part-of-speech tagging. Improvement of these technologies requires taking into account and studying performance repetitions (such as complement + complement nous nous) in order to be able to "erase" them before further processing. Our results show that repetitions mainly involve function words and take place at major syntactic boundaries.

Mots clés : Répétitions, français parlé spontané, « disfluences », phénomènes de performance, étude quantitative, reconnaissance de la parole, étiquetage morpho-syntaxique

Keywords : Repetitions, spontaneous French speech, disfluencies, performance phenomena, quantitative study, speech recognition, part-of-speech tagging