talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Identification de profil clinique du patient: Une approche de classification de séquences utilisant des modèles de langage français contextualisés

Aidan Mannion, Thierry Chevalier, Didier Schwab, Lorraine Goeuriot

Résumé : Cet article présente un résumé de notre soumission pour Tâche 1 de DEFT 2021. Cette tâche consiste à identifier le profil clinique d’un patient à partir d’une description textuelle de son cas clinique en identifiant les types de pathologie mentionnés dans le texte. Ce travail étudie des approches de classification de texte utilisant des plongements de mots contextualisés en français. À partir d’une base de référence d’un modèle constitué pour la compréhension générale de la langue française, nous utilisons des modèles pré-entraînés avec masked language modelling et affinés à la tâche d’identification, en utilisant un corpus externe de textes cliniques fourni par SOS Médecins, pour développer des ensembles de classifieurs binaires associant les textes cliniques à des catégories de pathologies.

Mots clés : TALN biomédicale, Classification des séquences, FlauBERT, plongements de mots contextualisé.