OncoBERT : un modèle de langue clinique français dédié à l’oncologie pour la structuration automatique des données
Quentin FIlori
Résumé : Nous avons développé et validé un modèle de langage français spécialisé, entraîné sur des narratifs cliniques en oncologie afin d’améliorer la structuration automatique des biomarqueurs et des événements indésirables. Le modèle, OncoBERT, résulte d’un pré-entraînement continu de CamemBERT sur 2{,}7 millions de comptes rendus médicaux dé-identifiés issus d'un Centre de lutte contre le cancer entre 2000 et 2023. Il a été évalué sur deux tâches : la classification des biomarqueurs (OncoBERT-ANA) et l’extraction de toxicités (OncoBERT-TOX). OncoBERT obtient des scores F1 de 0{,}96 et 0{,}92, dépassant DrBERT et CamemBERT-bio de 1 à 5 points. Une validation externe confirme sa généralisabilité avec un F1 de 0{,}93. Ces résultats montrent qu’OncoBERT constitue une avancée importante dans l’adaptation des modèles biomédicaux aux particularités linguistiques et cliniques de l’oncologie française.
Mots clés : Traitement automatique du langage naturel, oncologie, modèle de langage, pré- entraînement continu, extraction d’information clinique