ModernCamemBERT-bio : un encodeur biomédical et clinique français à contexte long
Rian Touchent, Éric Villemonte de la Clergerie
Résumé : Les encodeurs biomédicaux français existants sont limités à 512 tokens de contexte. Cela les rend peu adaptés aux documents cliniques longs tels que les comptes rendus d'hospitalisation. Nous présentons ModernCamemBERT-bio, un encodeur biomédical français avec un contexte de 8192 tokens, obtenu par pré-entraînement continu de ModernCamemBERT avec un budget de 10 milliards de tokens. Le jeu de données d'entraînement est constitué à partir de six sources francophones et annoté par un LLM selon quatre signaux de qualité ; une étude d'ablation identifie ceux qui améliorent les performances en aval. La recette de pré-entraînement inclut un détour par un objectif causal (CLM) avant un retour au MLM, dont nous mesurons le gain par rapport à un pré-entraînement continu MLM standard. Le modèle atteint 61,6% de F1 moyen sur 8 tâches biomédicales et cliniques françaises. Le détour CLM apporte +2,8pp par rapport à un contrôle MLM identique en données et en budget. ModernCamemBERT-bio dépasse aussi les encodeurs biomédicaux français existants, qui sont limités à 512 tokens : +23,3pp vs CamemBERT-bio, +11,5pp vs DrBERT. Une version Large (350M) porte la moyenne à 64,2% (+1,2pp sur le contrôle MLM). Nous publions les modèles sous licence libre.
Mots clés : pré-entraînement continu, biomédical, clinique, encodeur, français, contexte long, curation de données