@inproceedings{Touchent-Villemonte-de-la-Clergerie:CORIA-TALN-2026:2026,
    author = "Touchent, Rian and Villemonte de la Clergerie, \'Eric",
    title = "ModernCamemBERT-bio : un encodeur biom\'edical et clinique fran\c{c}ais \`a contexte long",
    booktitle = "Actes de CORIA-TALN 2026. Actes de l'atelier TAL@Sant\'e",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "40-55",
    note = "",
    abstract = "Les encodeurs biom\'edicaux fran\c{c}ais existants sont limit\'es \`a 512 tokens de contexte. Cela les rend peu adapt\'es aux documents cliniques longs tels que les comptes rendus d'hospitalisation. Nous pr\'esentons ModernCamemBERT-bio, un encodeur biom\'edical fran\c{c}ais avec un contexte de 8192 tokens, obtenu par pr\'e-entra{\^\i}nement continu de ModernCamemBERT avec un budget de 10 milliards de tokens. Le jeu de donn\'ees d'entra{\^\i}nement est constitu\'e \`a partir de six sources francophones et annot\'e par un LLM selon quatre signaux de qualit\'e ; une \'etude d'ablation identifie ceux qui am\'eliorent les performances en aval. La recette de pr\'e-entra{\^\i}nement inclut un d\'etour par un objectif causal (CLM) avant un retour au MLM, dont nous mesurons le gain par rapport \`a un pr\'e-entra{\^\i}nement continu MLM standard. Le mod\`ele atteint 61,6\\% de F1 moyen sur 8 t\^aches biom\'edicales et cliniques fran\c{c}aises. Le d\'etour CLM apporte +2,8pp par rapport \`a un contr\^ole MLM identique en donn\'ees et en budget. ModernCamemBERT-bio d\'epasse aussi les encodeurs biom\'edicaux fran\c{c}ais existants, qui sont limit\'es \`a 512 tokens : +23,3pp vs CamemBERT-bio, +11,5pp vs DrBERT. Une version Large (350M) porte la moyenne \`a 64,2\\% (+1,2pp sur le contr\^ole MLM). Nous publions les mod\`eles sous licence libre.",
    keywords = "pr\'e-entra{\^\i}nement continu, biom\'edical, clinique, encodeur, fran\c{c}ais, contexte long, curation de donn\'ees",
    url = "11.pdf"
}