talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Qwant Research @DEFT 2019 : appariement de documents et extraction d’informations à partir de cas cliniques

Estelle Maudet, Oralie Cattan, Maureen de Seyssel, Christophe Servan

Résumé : Dans ce papier, nous présentons la participation de Qwant Research aux tâches 2 et 3 de l’édition 2019 du défi fouille de textes (DEFT) portant sur l’analyse de documents cliniques rédigés en français. La tâche 2 est une tâche de similarité sémantique qui demande d’apparier cas cliniques et discussions médicales. Pour résoudre cette tâche, nous proposons une approche reposant sur des modèles de langue et évaluons l’impact de différents pré-traitements et de différentes techniques d’appariement sur les résultats. Pour la tâche 3, nous avons développé un système d’extraction d’information qui produit des résultats encourageants en termes de précision. Nous avons expérimenté deux approches différentes, l’une se fondant exclusivement sur l’utilisation de réseaux de neurones pour traiter la tâche, l’autre reposant sur l’exploitation des informations linguistiques issues d’une analyse syntaxique.

Mots clés : Similarité sémantique, extraction d’information, modèle de langues, modèle de vraisemblance de la requête, réseaux de neurones, analyse syntaxique.