Participation de Berger-Levrault (BL.Research) à DEFT 2021 : de l’apprentissage des seuils de validation à la classification multi-labels de documents
Mokhtar Boumedyen Billami, Lina Nicolaieff, Camille Gosset, Christophe Bortolaso
Résumé : Cet article présente notre participation à l’édition 2021 du DÉfi Fouille de Textes (DEFT) et plus précisément à la première tâche liée à l'identification du profil clinique du patient. Cette tâche consiste à sélectionner, pour un document décrivant l'état d'un patient, les différents types de maladies rencontrées correspondant aux entrées génériques des chapitres du MeSH (Medical Subject Headings). Dans notre travail, nous nous sommes intéressés aux questions suivantes : (1) Comment améliorer les représentations vectorielles de documents, voire de classes ? (2) Comment apprendre des seuils de validation de classes ? Et (3) Une approche combinant apprentissage supervisé et similarité sémantique peut-elle apporter une meilleure performance à un système de classification multi-labels ?
Mots clés : Apprentissage supervisé, Représentation sémantique de classes, Similarité sémantique, Réentraînement de plongements lexicaux, MeSH.