talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

IR-SenTransBio: Modèles Neuronaux Siamois pour la Recherche d'Information Biomédicale

Safaa Menad

Résumé : L'entraînement de modèles transformeurs de langages sur des données biomédicales a permis d'obtenir des résultats prometteurs. Cependant, ces modèles de langage nécessitent pour chaque tâche un affinement (fine-tuning) sur des données supervisées très spécifiques qui sont peu disponibles dans le domaine biomédical. Dans le cadre de la classification d'articles scientifiques et les réponses aux questions biomédicales, nous proposons d'utiliser de nouveaux modèles neuronaux siamois (sentence transformers) qui plongent des textes à comparer dans un espace vectoriel. Nos modèles optimisent une fonction objectif d'apprentissage contrastif auto-supervisé sur des articles issus de la base de données bibliographique MEDLINE associés à leurs mots-clés MeSH (Medical Subject Headings). Les résultats obtenus sur plusieurs benchmarks montrent que les modèles proposés permettent de résoudre ces tâches sans exemples (zero-shot) et sont comparables à des modèles transformeurs biomédicaux affinés sur des données supervisés spécifiques aux problèmes traités. De plus, nous exploitons nos modèles dans la tâche de la recherche d'information biomédicale. Nous montrons que la combinaison de la méthode BM25 et de nos modèles permet d'obtenir des améliorations supplémentaires dans ce cadre.

Mots clés : Modèles de Langage, Transformeurs, Apprentissage Contrastif, Modèles Neuronaux Simaois, Apprentissage sans Exemple, Apprentissage auto, supervisé, Recherche d'Information, Classification de Documents, Réponses aux Questions, Textes Biomédicaux