talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apprentissage supervisé sur ressources encyclopédiques pour l’enrichissement d’un lexique de noms propres destiné à la reconnaissance des entités nommées

Nadia Okinina, Damien Nouvel, Nathalie Friburger, Jean-Yves Antoine

Résumé : Cet article présente une méthode hybride d’enrichissement d’un lexique de noms propres à partir de la base encyclopédique en ligne Wikipedia. Une des particularités de cette recherche est de viser l’enrichissement d’une ressource existante (Prolexbase) très contrôlée décrivant finement les noms propres. A la différence d’autres travaux destinés à la reconnaissance des entités nommées, notre objectif est donc de réaliser un enrichissement automatique de qualité. Notre approche repose sur l’utilisation en pipe-line de règles déterministes basées sur certaines informations DBpedia et d’une catégorisation supervisée à base de classifieur SVM. Nos résultats montrent qu’il est ainsi possible d’enrichir un lexique de noms propres avec une très bonne précision.

Abstract : This paper concerns the automatic extension of a lexicon of proper names by means of a hybrid mining of Wikipedia. The specificity of this research is to focus on the quality of the added lexical entries, since the mining process is supposed to extend a controlled existing resource (Prolexbase). Our approach consists in the successive application of deterministic rules based on some specific information of the DBpedia and of a supervised classification with a SVM classifier. Our experiments show that it is possible to extend automatically such a lexicon without adding a perceptible noise to the resource.

Mots clés : reconnaissance des entités nommées, lexique de nom propre, enrichissement automatique de lexique, Wikipedia, règles, classification supervisée, machine à vecteurs de support, SVM

Keywords : named entities recognition, proper names lexicon, automatic extension of lexicon, Wikipedia, rules, supervised classification, support vector machines, SVM