talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Identification et catégorisation automatiques des anthroponymes du Français

Nordine Fourour

Résumé : Cet article préente un système de reconnaissance des noms propres pour le Français. Les spécifications de ce système ont été réalisées à la suite d’une étude en corpus et s’appuient sur des critères graphiques et référentiels. Les critères graphiques permettent de concevoir les traitements à mettre en place pour la délimitation des noms propres et la catégorisation repose sur les critères référentiels. Le système se base sur des règles de grammaire, exploite des lexiques spécialisés et comporte un module d’apprentissage. Les performances atteintes par le système, sur les anthroponymes, sont de 89,4% pour le rappel et 94,6% pour la précision.

Abstract : This paper presents a French proper name recognizer. The specifications of this system have been elaborated through corpus investigation upon graphical and semantic criteria. The graphical criteria allow to presuppose some processes to identify proper names boundaries and the semantic classification is used to categorize them. The system is grammar-rule based, uses specialized lexicons, and includes a learning processing. The system performance evaluated on the categories composing anthroponym class achieves 94.6% of precision and 89.4% of recall.

Mots clés : Entités nommées, reconnaissance automatique, procédure incrémentielle

Keywords : Name entities, automatic recognition, incremental process