talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Annotation manuelle de matchs de foot : Oh la la la ! l'accord inter-annotateurs ! et c'est le but !

Karën Fort, Vincent Claveau

Résumé : Cet article présente une campagne d’annotation de commentaires de matchs de football en français. L’annotation a été réalisée à partir d’un corpus très hétérogène, contenant à la fois des comptes-rendus minute par minute et des transcriptions des commentaires vidéo. Nous montrons ici comment les accords intra- et inter-annotateurs peuvent être utilisés efficacement, en en proposant une définition adaptée à notre type de tâche et en mettant en exergue l’importance de certaines bonnes pratiques concernant leur utilisation. Nous montrons également comment certains indices collectés à l’aide d’outils statistiques simples peuvent être utilisés pour indiquer des pistes de corrections des annotations. Ces différentes propositions nous permettent par ailleurs d’évaluer l’impact des modalités sources de nos textes (oral ou écrit) sur le coût et la qualité des annotations.

Abstract : We present here an annotation campaign of commentaries of football matches in French. The annotation was done from a very heterogeneous text corpus of both match minutes and video commentary transcripts. We show how the intra- and inter-annotator agreement can be used efficiently during the whole campaign by proposing a definition of the markables suited to our type of task, as well as emphasizing the importance of using it appropriately. We also show how some clues, collected through statistical analyses, could be used to help correcting the annotations. These statistical analyses are then used to assess the impact of the source modality (written or spoken) on the cost and quality of the annotation process.

Mots clés : annotation manuelle, accords inter-annotateurs

Keywords : manual annotation, inter-annotator agreement