@inproceedings{Tripodi-Meoni:CORIA-TALN-2026:2026,
    author = "Tripodi, Riccardo and Meoni, Simon",
    title = "Towards privacy-safe synthetic French clinical documents",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 19e Rencontres Jeunes Chercheurs en RI (RJCRI) et 28\`eme Rencontre des \'Etudiants Chercheurs  en Informatique pour le Traitement Automatique des Langues (RECITAL)",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "68-79",
    note = "Les mod\`eles de langues m\'edicaux requierent de grands corpus annot\'es, rares en fran\c{c}ais et soumis \`a des restrictions en mati\`ere de confidentialit\'e",
    abstract = "Les mod\`eles de langues m\'edicaux requierent
de grands corpus annot\'es, rares en fran\c{c}ais et soumis \`a des restrictions en mati\`ere de confidentialit\'e. Nous pr\'esentons un pipeline pr\'eservant la confidentialit\'e qui produit un LLM m\'edical fran\c{c}ais d\'eployable sans utiliser de textes de patients pendant l'entra{\^\i}nement.

\`A partir d'une correspondance \'etablie entre les codes diagnostics CIM-10 et les mots-cl\'es m\'edicaux, un LLM m\'edical g\'en\`ere des rapports synth\'etiques associ\'es aux codes, formant ainsi un jeu de donn\'ees de base exempt de dossiers cliniques r\'eels. Ce jeu de donn\'ees permet d'entra{\^\i}ner un mod\`ele local plus petit, ensuite affin\'e de mani\`ere it\'erative au sein de l'h\^opital sans qu'aucune donn\'ee confidentielle ne quitte l'\'etablissement.

Pour \'evaluer l'utilit\'e clinique de cette m\'ethodologie, nous entra{\^\i}nons des classificateurs CIM-10 exclusivement sur les rapports synth\'etiques produits \`a chaque \'etape de raffinement. L'am\'elioration de la qualit\'e de g\'en\'eration se traduit par de meilleures performances sur des donn\'ees r\'eelles, traduisant une pertinence m\'edicale accrue.

Ces r\'esultats montrent que des connaissances structur\'ees et un retour d'information s\'ecuris\'e permettent le transfert de comp\'etence clinique \`a un LLM fran\c{c}ais l\'eger tout en produisant un ensemble de donn\'ees synth\'etiques partageables bienvenues pour un NLP m\'edical manquant de ressources.",
    keywords = "G\'en\'eration de donn\'ees synth\'etiques, Codage CIM-10, NLP m\'edical, Apprentissage par renforcement, Confidentialit\'e des donn\'ees, Rapports de sortie",
    url = "2005.pdf"
}
