talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

OncoDEBERTa : adaptation d'un modèle DeBERTa-v3 au domaine oncologique clinique français

Quentin FIlori, Thomas Checchin, Adrien Guille, Julien Jacques, Pierre-Etienne Heudel, Loic Verlingue, Jean-Yves Blay, Hugo Crochet

Résumé : Nous présentons OncoDEBERTa, un modèle de langue français adapté au domaine oncologique en combinant l'architecture DeBERTa-v3 (CamemBERTav2) et une stratégie d'entraînement de type ELECTRA. OncoDEBERTa est pré-entraîné en continu sur le même corpus de 2,7 millions de comptes-rendus oncologiques dé-identifiés que son prédécesseur OncoBERT (CamemBERT + MLM), mais atteint la convergence en une seule époque contre 50, grâce à un signal d'apprentissage par étape environ 6,7 fois plus dense. Évalué sur deux tâches cliniques en validation croisée stratifiée à 5 plis, OncoDEBERTa établit de nouveaux niveaux de performance~: F1-macro de $0{,}88$ en classification du statut métastatique ($+5$ pts vs OncoBERT, $p = 0{,}013$) et F1 de $0{,}81$ sur l'entité rare Médicament en NER de toxicités ($+6$ pts, $p = 0{,}001$). Nos résultats montrent que les gains proviennent conjointement de l'architecture DeBERTa-v3 et de l'adaptation au domaine oncologique, un pré-entraînement biomédical général ne suffit pas.

Mots clés : modèle de langue, adaptation de domaine, ELECTRA, DeBERTa, oncologie, NER, classification, NLP clinique, français