talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Annotation en Frames Sémantiques du corpus de dialogue MEDIA

Marie-Jean Meurs, Frédéric Duvert, Frédéric Béchet, Fabrice Lefèvre, Renato De Mori

Résumé : Cet article présente un formalisme de représentation des connaissances qui a été utilisé pour fournir des annotations sémantiques de haut niveau pour le corpus de dialogue oral MEDIA. Ces annotations en structures sémantiques, basées sur le paradigme FrameNet, sont obtenues de manière incrémentale et partiellement automatisée. Nous décrivons le processus d’interprétation automatique qui permet d’obtenir des compositions sémantiques et de générer des hypothèses de frames par inférence. Le corpus MEDIA est un corpus de dialogues en langue française dont les tours de parole de l’utilisateur ont été manuellement transcrits et annotés (niveaux mots et constituants sémantiques de base). Le processus proposé utilise ces niveaux pour produire une annotation de haut niveau en frames sémantiques. La base de connaissances développée (définitions des frames et règles de composition) est présentée, ainsi que les résultats de l’annotation automatique.

Abstract : This paper introduces a knowledge representation formalism, used for incremental and partially automated annotation of the French MEDIA dialogue corpus in terms of semantic structures. We describe an automatic interpretation process for composing semantic structures from basic semantic constituents using patterns involving constituents and words. The process has procedures for obtaining semantic compositions and generating frame hypotheses by inference. This process is applied to MEDIA, a dialogue corpus manually annotated at the word and semantic constituent levels, and thus produces a higher level semantic frame annotation. The Knowledge Source defined and the results obtained on the automatically-derived annotation are reported.

Mots clés : compréhension automatique de la parole, système de dialogue oral, frames sémantiques, décodage conceptuel, annotation sémantique, inférence sémantique

Keywords : spoken language understanding, spoken dialogue system, semantic structures, semantic frames, conceptual decoding, semantic annotation, semantic inference