ELITEC : un corpus de conversations en microposts français annoté pour le liage d'entités Wikidata
Vivien Leonard, Beatrice Markhoff, Jean-Yves Antoine
Résumé : Nous présentons un corpus de microposts en français pour l'évaluation de la tâche de liage des mentions présentes dans le texte à des entités de Wikidata. Ce corpus est annoté à la fois pour la reconnaissance des mentions (Named Entity Recognition - NER) et leur liaison à des entités de Wikidata (Entity Linking - EL). Il s'agit d'une collection de 2 500 microposts, ciblés sur des termes liés à la vie en ville et regroupés en 618 conversations. Construit en suivant les conventions d'annotation de Impresso-Quaero, ce corpus a été pseudo-anonymisé afin d'être mis librement à disposition de la communauté. Nommé ELITEC (EL for mIcroposTs in FrEnCh), son objectif est de compléter les ressources spécifiques au français. ELITEC sert de base de tests pour les tâches NER et EL, et nous l'avons utilisé pour l'évaluation d'un système d'EL que nous avons développé.
Mots clés : conversations de microposts, corpus annoté, français, liage d'entité, Wikidata