Évaluer des annotations manuelles dispersées : les coefficients sont-ils suffisants pour estimer l’accord inter-annotateurs ?

Karën Fort, Claire François, Maha Ghribi

Résumé : L’objectif des travaux présentés dans cet article est l’évaluation de la qualité d’annotations manuelles de relations de renommage de gènes dans des résumés scientifiques, annotations qui présentent la caractéristique d’être très dispersées. Pour cela, nous avons calculé et comparé les coefficients les plus communément utilisés, entre autres kappa (Cohen, 1960) et pi (Scott, 1955), et avons analysé dans quelle mesure ils sont adaptés à nos données. Nous avons également étudié les différentes pondérations applicables à ces coefficients permettant de calculer le kappa pondéré (Cohen, 1968) et l’alpha (Krippendorff, 1980, 2004). Nous avons ainsi étudié le biais induit par la grande prévalence d’une catégorie et défini un mode de calcul des distances entre catégories reposant sur les annotations réalisées.

Abstract : This article details work aiming at evaluating the quality of the manual annotation of gene renaming relations in scientific abstracts, which generates sparse annotations. To evaluate these annotations, we computed and compared the results obtained using the commonly advocated inter-annotator agreement coefficients such as kappa (Cohen, 1960) or pi (Scott, 1955) and analyzed to which extent they are relevant for our data.We also studied the different weighting computations applicable to kappa! (Cohen, 1968) and alpha (Krippendorff, 1980, 2004) and estimated the bias introduced by prevalence. We then define a way to compute distances between categories based on the produced annotations.

Mots clés : Annotation manuelle, évaluation, accord inter-annotateurs

Keywords : Manual annotation, evaluation, inter-annotator agreement

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Évaluer des annotations manuelles dispersées : les coefficients sont-ils suffisants pour estimer l’accord inter-annotateurs ?

Karën Fort, Claire François, Maha Ghribi