talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

CamemBERT-bio : Un modèle de langue français savoureux et meilleur pour la santé

Rian Touchent, Laurent Romary, Eric De La Clergerie

Résumé : Les données cliniques dans les hôpitaux sont de plus en plus accessibles pour la recherche à travers les entrepôts de données de santé, cependant ces documents sont non-structurés. Il est donc nécessaire d'extraire les informations des comptes-rendus médicaux. L'utilisation du transfert d'apprentissage grâce à des modèles de type BERT comme CamemBERT ont permis des avancées majeures, notamment pour la reconnaissance d'entités nommées. Cependant, ces modèles sont entraînés pour le langage courant et sont moins performants sur des données biomédicales. C'est pourquoi nous proposons un nouveau jeu de données biomédical public français sur lequel nous avons poursuivi le pré-entraînement de CamemBERT. Ainsi, nous présentons une première version de CamemBERT-bio, un modèle public spécialisé pour le domaine biomédical français qui montre un gain de 2,54 points de F-mesure en moyenne sur différents jeux d'évaluations de reconnaissance d'entités nommées biomédicales.

Mots clés : comptes rendus médicaux, TAL clinique, CamemBERT, extraction d'information, biomédical, reconnaissance d'entités nommées