talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Participation d’EDF R&D à DEFT 2019 : des vecteurs et des règles !

Philippe Suignard, Meryl Bothua, Alexandra Benamar

Résumé : Ce papier décrit la participation d’EDF R&D à la campagne d’évaluation DEFT 2019. Notre équipe a participé aux trois tâchés proposées : Indexation de cas cliniques (Tâche T1) ; Détection de similarité entre des cas cliniques et des discussions (Tâche T2) ; Extraction d’information dans des cas cliniques (Tâche 3). Nous avons utilisé des méthodes symboliques et/ou numériques en fonction de ces tâches. Aucune donnée supplémentaire, autre que les données d’apprentissage, n’a été utilisée. Notre équipe obtient des résultats satisfaisants sur l’ensemble des taches et se classe première sur la tache 2. Les méthodes proposées sont facilement transposables à d’autres tâches d’indexation et de détection de similarité qui peuvent intéresser plusieurs entités du groupe EDF.

Mots clés : données cliniques, indexation, détection de similarité sémantique, Word2Vec, détec- tion de multimots, extraction d’information, clustering.