talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Normalisation de concepts cliniques par des vecteurs de mots

François Morlane-Hondère, Cyril Grouin

Résumé : Dans cet article, nous présentons les expériences de normalisation de concepts cliniques (états pathologiques) que nous avons menées sur un corpus de messages postés sur des forums de santé. Le travail de normalisation consiste à identifier l’identifiant unique de concept (CUI) dans l’UMLS associé à chaque état pathologique présent dans le corpus. Nous avons réalisé cette normalisation au moyen de représentations vectorielles des mots présents dans le contexte des concepts cliniques (outil word2vec). Nous avons testé trois types de parcours des résultats produits par quatre modèles de voisins. Aucun type de parcours ne produit franchement de meilleurs résultats. En revanche, les modèles construits avec une fenêtre contextuelle de taille intermédiaire (entre 5 et 10 mots) permettent l’obtention des meilleurs candidats à la normalisation.

Mots clés : Forums ; Normalisation ; Voisins distributionnels.