talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Classification multi-label de cas cliniques avec CamemBERT

Alexandre Bailly, Corentin Blanc, Thierry Guillotin

Résumé : La quantité de documents textuels médicaux allant grandissant, la nécessité d’en extraire automatiquement des informations concernant des patients devient de plus en plus grande. La prédiction du profil clinique permet de gagner du temps pour le praticien tout en extrayant l’essentiel de l’information concernant un patient. Avec l’explosion du nombre de documents (médicaux ou non), des modèles pré-entraînés tels que BERT pour l’anglais ou CamemBERT pour le français ont émergé. L’utilisation de ces modèles permet d’encoder contextuellement du texte afin de l’utiliser dans des réseaux neuronaux pour notamment prédire des profils cliniques. Cet article vise à comparer différentes méthodes de prédiction de profil clinique en se basant sur l’utilisation de CamemBERT. Dans un premier temps, uniquement du texte provenant de documents médicaux a été utilisé. Dans un second temps, des entités nommées ont été injectées en plus du texte par concaténation ou par sommation pondérée. Les résultats ont montré un succès limité et dépendant de la prévalence des chapitres à prédire dans le corpus ainsi qu’une dégradation des performances lors de l’ajout des entités nommées.

Mots clés : Classification multi-label ; Fouille de texte ; CamemBERT.