talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Création d’un multi-arbre à partir d’un texte balisé : l’exemple de l’annotation d’un corpus d’oral spontané

Julie Belião

Résumé : Dans cette étude, nous nous intéressons au problème de l’analyse d’un corpus annoté de l’oral. Le système d’annotation considéré est celui introduit par l’équipe des syntacticiens du projet Rhapsodie. La principale problématique qui sous-tend un tel projet est que la base écrite sur laquelle on travaille est en réalité une transcription de l’oral, balisée par les annotateurs de manière à délimiter un ensemble de structures arborescentes. Un tel système introduit plusieurs structures, en particulier macro et micro-syntaxiques. Du fait de leur étroite imbrication, il s’est avéré difficile de les analyser de façon indépendante et donc de travailler sur l’aspect macro-syntaxique indépendamment de l’aspect micro-syntaxique. Cependant, peu d’études jusqu’à présent considèrent ces problèmes conjointement et de manière automatisée. Dans ce travail, nous présentons nos efforts en vue de produire un outil de parsing capable de rendre compte à la fois de l’information micro et macro-syntaxique du texte annoté. Pour ce faire, nous proposons une représentation partant de la notion de multi-arbre et nous montrons comment une telle structure peut être générée à partir de l’annotation et utilisée à des fins d’analyse.

Abstract : This study focuses on automatic analysis of annotated transcribed speech. The annotation system considered has been recently introduced to address the several limitations of classical syntactic annotations when faced to natural speech transcriptions. It introduces many different components such as embedding, piles, kernels, pre-kernels, discursive markers etc.. All those components are tightly coupled in a complex tree structure and can hardly be considered separately because of their close intrication. Hence, a joint analysis is required but no analysis tool to handle them all together was available yet. In this study, we introduce such an automatic parser of annotated transcriptions of speech and present the corresponding framework based on multi-trees. This framework permits to jointly handle separate aspects of speech such as macro and micro syntactic levels, which are traditionnaly considered separately. Several applications are proposed, including analysis of the transcribed speech by classical parsers designed for written language.

Mots clés : Arbres syntaxiques, unité illocutoire, unités rectionnelles, micro-syntaxe, macrosyntaxe, entassement

Keywords : Syntactic trees, illocutionary unit, microsyntax, macrosyntax, piles