talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Normalisation des entités nommées : pour une approche mixte et orientée utilisateurs

Vanessa Andréani

Résumé : La normalisation intervient dans de nombreux champs du traitement de l'information. Elle permet d'optimiser les performances des applications, telles que la recherche ou l'extraction d'information, et de rendre plus fiable la constitution de ressources langagières. La normalisation consiste à ramener toutes les variantes d'un même terme ou d'une entité nommée à une forme standard, et permet de limiter l'impact de la variation linguistique. Notre travail porte sur la normalisation des entités nommées, pour laquelle nous avons mis en place un système complexe mêlant plusieurs approches. Nous en présentons ici une des composantes : une méthode endogène de délimitation et de validation de l’entité nommée normée, adaptée à des données multilingues. De plus, nous plaçons l'utilisateur au centre du processus de normalisation, dans l'objectif d'obtenir des données parfaitement fiables et adaptées à ses besoins.

Abstract : Normalization is involved in many fields of information processing. It improves performances for several applications, such as information retrieval or information extraction, and makes linguistic resources constitution more reliable. Normalization consists in standardizing each variant of a term or named entity into a unique form, and this way restricts the impact of term variation. Our work applies to named entity normalization, for which we implemented a complex system that mixes several approaches. We present here one of its components: an endogenous method to mark out and validate the normalized named entities. Moreover, we place the user in the center of our normalization process, in order to obtain fully reliable data that fit his needs.

Mots clés : normalisation, entités nommées, traitement de l'information, analyse de corpus, méthodes endogènes, système complexe

Keywords : normalization, named entities, information processing, corpus analysis, endogenous methods, complex system