@inproceedings{FIlori:CORIA-TALN-2026:2026,
    author = "FIlori, Quentin",
    title = "OncoBERT : un mod\`ele de langue clinique fran\c{c}ais d\'edi\'e \`a l{\textquoteright}oncologie pour la structuration automatique des donn\'ees",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 19e Rencontres Jeunes Chercheurs en RI (RJCRI) et 28\`eme Rencontre des \'Etudiants Chercheurs  en Informatique pour le Traitement Automatique des Langues (RECITAL)",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "41-51",
    note = "",
    abstract = "Nous avons d\'evelopp\'e et valid\'e un mod\`ele de langage fran\c{c}ais sp\'ecialis\'e, entra{\^\i}n\'e sur des narratifs cliniques en oncologie afin d{\textquoteright}am\'eliorer la structuration automatique des biomarqueurs et des \'ev\'enements ind\'esirables. Le mod\`ele, OncoBERT, r\'esulte d{\textquoteright}un pr\'e-entra{\^\i}nement continu de CamemBERT sur 2{,}7 millions de comptes rendus m\'edicaux d\'e-identifi\'es issus d'un Centre de lutte contre le cancer entre 2000 et 2023. Il a \'et\'e \'evalu\'e sur deux t\^aches : la classification des biomarqueurs (OncoBERT-ANA) et l{\textquoteright}extraction de toxicit\'es (OncoBERT-TOX). OncoBERT obtient des scores F1 de 0{,}96 et 0{,}92, d\'epassant DrBERT et CamemBERT-bio de 1 \`a 5 points. Une validation externe confirme sa g\'en\'eralisabilit\'e avec un F1 de 0{,}93. Ces r\'esultats montrent qu{\textquoteright}OncoBERT constitue une avanc\'ee importante dans l{\textquoteright}adaptation des mod\`eles biom\'edicaux aux particularit\'es linguistiques et cliniques de l{\textquoteright}oncologie fran\c{c}aise.",
    keywords = "Traitement automatique du langage naturel, oncologie, mod\`ele de langage, pr\'e- entra{\^\i}nement continu, extraction d{\textquoteright}information clinique",
    url = "2004.pdf"
}
