talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

CLISTER : Un corpus pour la similarité sémantique textuelle dans des cas cliniques en français

Nicolas Hiebel, Karën Fort, Aurélie Névéol, Olivier Ferret

Résumé : Le TAL repose sur la disponibilité de corpus annotés pour l’entraînement et l’évaluation de modèles. Il existe très peu de ressources pour la similarité sémantique dans le domaine clinique en français. Dans cette étude, nous proposons une définition de la similarité guidée par l’analyse clinique et l’appliquons au développement d’un nouveau corpus partagé de 1 000 paires de phrases annotées manuellement en scores de similarité. Nous évaluons ensuite le corpus par des expériences de mesure automatique de similarité. Nous montrons ainsi qu’un modèle de plongements de phrases peut capturer la similarité avec des performances à l’état de l’art sur le corpus DEFT STS (Spearman=0,8343). Nous montrons également que le contenu du corpus CLISTER est complémentaire de celui de DEFT STS.

Mots clés : Similarité sémantique, Développement de corpus, Texte clinique, Français.