talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Indexation et appariement de documents cliniques avec le modèle vectoriel

Khadim Dramé, Ibrahima Diop, Lamine Faty, Birame Ndoye

Résumé : Dans ce papier, nous présentons les méthodes que nous avons développées pour participer aux tâches 1 et 2 de l’édition 2019 du défi fouille de textes (DEFT 2019). Pour la première tâche, qui s’intéresse à l’indexation de cas cliniques, une méthode utilisant la pondération TF-IDF (term frequency – inverse document frequency) a été proposée. Quant à la seconde tâche, la méthode proposée repose sur le modèle vectoriel pour apparier des discussions aux cas cliniques correspondants ; pour cela, le cosinus est utilisé comme mesure de similarité. L’indexation sémantique latente (latent semantic indexing – LSI) est également expérimentée pour étendre cette méthode. Pour chaque méthode, différentes configurations ont été testées et évaluées sur les données de test du DEFT 2019.

Mots clés : indexation, modèle vectoriel, TF-IDF, indexation sémantique latente, similarité sémantique, cas cliniques.