talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Impact de la nature et de la taille des corpus d'apprentissage sur les performances dans la détection automatique des entités nommées

Anaïs Ollagnier, Sébastien Fournier, Patrice Bellot, Frédéric Béchet

Résumé : Nous présentons une étude comparative sur l’impact de la nature et de la taille des corpus d’apprentissage sur les performances dans la détection automatique des entités nommées. Cette évaluation se présente sous la forme de multiples modulations de trois corpus français. Deux des corpus sont issus du catalogue des ressources linguistiques d’ELRA et le troisième est composé de documents extraits de la plateforme OpenEdition.org.

Abstract : We present a comparative study on the impact of the nature and size of the training corpus on performance in automatic named entities recognition. This evaluation is in the form of multiple modulations on three French corpus. Two corpora are from the catalog of the European Language Resources Association (ELRA) and the third is composed of documents extract from the OpenEdition.org platform.

Mots clés : Reconnaissance d'entités nommées, Adaptation au domaine, comparaison d'outils

Keywords : Named entity recognition, Domain adptation, performance comparison