DOING@DEFT : cascade de CRF pour l'annotation d'entités cliniques imbriquées
Anne-Lyse Minard, Andréane Roques, Nicolas Hiot, Mirian Halfeld Ferrari Alves, Agata Savary
Résumé : Cet article présente le système développé par l’équipe DOING pour la campagne d’évaluation DEFT 2020 portant sur la similarité sémantique et l’extraction d’information fine. L’équipe a participé uniquement à la tâche 3 : "extraction d’information". Nous avons utilisé une cascade de CRF pour annoter les différentes informations à repérer. Nous nous sommes concentrés sur la question de l’imbrication des entités et de la pertinence d’un type d’entité pour apprendre à reconnaître un autre. Nous avons également testé l’utilisation d’une ressource externe, MedDRA, pour améliorer les performances du système et d’un pipeline plus complexe mais ne gérant pas l’imbrication des entités. Nous avons soumis 3 runs et nous obtenons en moyenne sur toutes les classes des F-mesures de 0,64, 0,65 et 0,61.
Mots clés : extraction d’information fine ; cas cliniques ; entités cliniques ; entités imbriquées ; apprentissage automatique ; CRF.