talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Prise en compte des disfluences dans un système d’analyse syntaxique automatique de l’oral

Rémi Bove, Christine Chardenon, Jean Véronis

Résumé : Nous présentons dans cette étude un essai de prise en compte des disfluences dans un système d’analyse linguistique initialement prévu pour l’écrit, en vue de la réalisation d’un prototype de traduction parole-parole. À partir d’une étude approfondie sur corpus, nous montrons comment des modifications du lexique et de la grammaire ont permis de traiter les cas les plus simples (pauses remplies, répétitions de mots isolés, etc.). D’autres cas plus complexes comme répétitions et auto-corrections de syntagmes ont nécessité la mise au point d’un mécanisme de contrôle sémantique permettant de limiter la combinatoire. Cette étude a mis également en évidence la difficulté de traitement de phénomènes tels que les amorces (mots interrompus) et les constructions inachevées, qui pour l’instant restent sans solution satisfaisante.

Abstract : In this paper we describe an attempt to take speech disfluencies into account in a linguistic analysis system initially designed for written data. Using a detailed corpus analysis, we show how the lexicon and grammar can be modified to solve the simplest cases (such as filled pauses, single-word repeats, and so forth). More difficult cases such as phrasal repeats and self-repairs required the development of a semantic control mechanism in order to avoid combinatorial explosion. This study also reveals the difficulty of processing word fragments and aborted constructs, which receive no satisfactory solution in the current state of the art.

Mots clés : disfluences, analyse syntaxique en dépendances, traitement automatique de l’oral

Keywords : disfluencies, parsing, automatic speech processing