talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étiquetage en rôles événementiels fondé sur l’utilisation d’un modèle neuronal

Emanuela Boros, Romaric Besançon, Olivier Ferret, Brigitte Grau

Résumé : Les systèmes d’extraction d’information doivent faire face depuis toujours à une double difficulté : d’une part, ils souffrent d’une dépendance forte vis-à-vis du domaine pour lesquels ils ont été développés ; d’autre part, leur coût de développement pour un domaine donné est important. Le travail que nous présentons dans cet article se focalise sur la seconde problématique en proposant néanmoins une solution en relation avec la première. Plus précisément, il aborde la tâche d’étiquetage en rôles événementiels dans le cadre du remplissage de formulaire (template filling) en proposant pour ce faire de s’appuyer sur un modèle de représentation distribuée de type neuronal. Ce modèle est appris à partir d’un corpus représentatif du domaine considéré sans nécessiter en amont l’utilisation de prétraitements linguistiques élaborés. Il fournit un espace de représentation permettant à un classifieur supervisé traditionnel de se dispenser de l’utilisation de traits complexes et variés (traits morphosyntaxiques, syntaxiques ou sémantiques). Par une série d’expérimentations menées sur le corpus de la campagne d’évaluation MUC-4, nous montrons en particulier que cette approche permet de dépasser les performances de l’état de l’art et que cette différence est d’autant plus importante que la taille du corpus d’entraînement est faible. Nous montrons également l’intérêt de l’adaptation de ce type de modèle au domaine traité par rapport à l’utilisation de représentations distribuées à usage générique.

Abstract : Information Extraction systems must cope with two problems : they heavily depend on the considered domain but the cost of development for a domain-specific system is important. We propose a new solution for role labeling in the event-extraction task that relies on using unsupervised word representations (word embeddings) as word features. We automatically learn domain-relevant distributed representations from a domain-specific unlabeled corpus without complex linguistic processing and use these features in a supervised classifier. Our experimental results on the MUC-4 corpus show that this system outperforms state-of-the-art systems on this event extraction task, especially when the amount of annotated data is small.We also show that using word representations induced on a domain-relevant dataset achieves better results than using more general word embeddings.

Mots clés : Extraction d’information, extraction de rôles événementiels, modèles de langage neuronaux

Keywords : Information extraction, event role filler detection, neural language models