talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extracting Named Entities. A Statistical Approach

Joaquim Silva, Zornitsa Kozareva, Veska Noncheva, Gabriel Lopes

Résumé : Les entitées nomées et plus généralement les multi-mots sont des ressources importantes pour plusieurs applications. Cependant, les métodes d’extraction automatique, indépendentes de la langue, de multi-mots, ne nous donnent pas des données 100% fiables. Dans ce papier nous proposons premièrement une méthode pour selectioner entités nomées d’entre les multi-mots extraits automatiquement et, deuxièmement, une méthode de groupement des entités nomées non-supervisionée et indépendente de la langue, en utilisant de la statistique. La deuxième phase de groupement rends l’évaluation humaine plus simple. Les traits utilisés pour le groupement sont décrits et motivés. L’analyse faite pour le groupement nous a permis d’obtenir différents groupes d’entités nomées. La méthode a été appliquée sur le bulgare et l’anglais. La précision obtenue pour certains groupes a été très haute. D’autres groupes doivent être encore rafinés. Par ailleurs, les traits discrimants appris pendant la phase de groupement nous permettent de classifier de nouvelles entités nomées.

Abstract : Named entities and more generally Multiword Lexical Units (MWUs) are important for various applications. However, language independent methods for automatically extracting MWUs do not provide us with clean data. So, in this paper we propose a method for selecting possible named entities from automatically extracted MWUs, and later, a statistics-based language independent unsupervised approach is applied to possible named entities in order to cluster them according to their type. Statistical features used by our clustering process are described and motivated. The Model-Based Clustering Analysis (MBCA) software enabled us to obtain different clusters for proposed named entities. The method was applied to Bulgarian and English. For some clusters, precision is very high; other clusters still need further refinement. Based on the obtained clusters, it is also possible to classify new possible named entities.

Mots clés : Entités Nommées, Unités Multi-mots, Groupement, Classification

Keywords : Named Entities, Multiword Units, Clustering, Classification