talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un corpus libre, évolutif et versionné en entités nommées du Français

Yoann Dupont

Résumé : Les corpus annotés sont des ressources difficiles à créer en raison du grand effort humain qu’elles impliquent. Une fois rendues disponibles, elles sont difficilement modifiables et tendent à ne pas évoluer pas dans le temps. Dans cet article, nous présentons un corpus annoté pour la reconnaissance des entités nommées libre et évolutif en utilisant les textes d’articles Wikinews français de 2016 à 2018, pour un total de 1191 articles annotés. Nous décrivons succinctement le guide d’annotation avant de situer notre corpus par rapport à d’autres corpus déjà existants. Nous donnerons également un accord intra-annotateur afin de donner un indice de stabilité des annotations ainsi que le processus global pour poursuivre les travaux d’enrichissement du corpus.

Mots clés : reconnaissance des entités nommées, annotation manuelle, corpus annoté.