talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Combinaison de contenus encyclopédiques multilingues pour une reconnaissance d’entités nommées en contexte

Eric Charton

Résumé : Dans cet article, nous présentons une méthode de transformation de Wikipédia en ressource d’information externe pour détecter et désambiguïser des entités nommées, en milieu ouvert et sans apprentissage spécifique. Nous expliquons comment nous construisons notre système, puis nous utilisons cinq éditions linguistiques de Wikipédia afin d’enrichir son lexique. Pour finir nous réalisons une évaluation et comparons les performances du système avec et sans compléments lexicaux issus des informations inter-linguistiques, sur une tâche d’extraction d’entités nommées appliquée à un corpus d’articles journalistiques.

Abstract : In this paper, we present a way to use of Wikipedia as an external resource to disambiguate and detect named entities, without learning step. We explain how we build our system and why we used five linguistic editions of the Wikipedia corpus to increase the volume of potentially matching candidates. We finally experiment our system on a news corpus.

Mots clés : Etiquetage d’entités nommées, ressources sémantiques

Keywords : Named entity labeling, semantic resources