talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Fouille du Web pour la collecte d'Entités Nommées

Christian Jacquemin, Caroline Bush

Résumé : Cette étude porte sur l’acquisition des Entités Nommées (EN) à partir du Web. L’application présentée se compose d’un moissonneur de pages et de trois analyseurs surfaciques dédiés à des structures spécifiques. Deux évaluations sont proposées : une évaluation de la productivité des moteurs en fonction des types d’EN et une mesure de la précision.

Mots clés : entité nommée, expression régulière, acquisition lexicale, marqueur, marqueur discursif, moteur de recherche