talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

DWIE-FR : Un nouveau jeu de données en français annoté en entités nommées

Sylvain Verdy, Maxime Prieur, Guillaume Gadek, Cédric Lopez

Résumé : Ces dernières années, les contributions majeures qui ont eu lieu en apprentissage automatique supervisé ont mis en evidence la nécessité de disposer de grands jeux de données annotés de haute qualité. Les recherches menées sur la tâche de reconnaissance d'entités nommées dans des textes en français font face à l'absence de jeux de données annotés "à grande échelle" et avec de nombreuses classes d'entités hiérarchisées. Dans cet article, nous proposons une approche pour obtenir un tel jeu de données qui s'appuie sur des étapes de traduction puis d'annotation des données textuelles en anglais vers une langue cible (ici au français). Nous évaluons la qualité de l'approche proposée et mesurons les performances de quelques modèles d'apprentissage automatique sur ces données.

Mots clés : TAL, reconnaissance d'entités nommée, jeu de données, traduction, alignement