talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Identification des problèmes d’annotation pour l’extraction de relations

Tsanta Randriatsitohaina, Thierry Hamon

Résumé : L’annotation d’un corpus est une tâche difficile et laborieuse, notamment sur des textes de spécialité comme les textes biomédicaux. Ainsi, dans un contexte comme l’extraction des interactions alimentmédicament (FDI), l’annotation du corpus POMELO a été réalisée par un seul annotateur et présente des risques d’erreur. Dans cet article, nous proposons d’identifier ces problèmes d’annotation en utilisant un corpus Silver Standard (CSS) que nous établissons à partir d’un vote majoritaire parmi les annotations proposées par des modèles entraînés sur un domaine similaire (interaction médicamentmédicament – DDI) et l’annotation manuelle à évaluer. Les résultats obtenus montrent que l’annotation dans POMELO est considérablement éloignée du CSS. L’analyse des erreurs permet d’en identifier les principales causes et de proposer des solutions pour corriger l’annotation existante.

Mots clés : Annotation, relation extraction, corpus biomédical, interaction médicament-aliment