talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Corpus EN-Istex : un corpus d'articles scientifiques annoté manuellement en entités nommées

Enza Morale, Denis Maurel, Jeanne Villaneau, Jean-Yves Antoine

Résumé : Nous présentons ici une nouvelle ressource libre : le corpus EN-ISTEX, un corpus de deux cents articles scientifiques annotés manuellement en entités nommées. Ces articles ont été extraits des deux éditeurs scientifiques les plus importants de la plateforme ISTEX. Tous les domaines sont concernés, même si les sciences dites dures, en particulier les sciences du vivant et de la santé, sont prépondérantes. Parmi ceux-ci vingt articles ont été multi-annotés afin de vérifier l'adéquation du guide d'annotation et la fiabilité de l’annotation. L'accord inter annotateurs sur ces vingt textes s'élève à 91 %.

Mots clés : corpus annoté, entités nommées, ressource libre, articles scientifiques, accord inter annotateurs.