talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Towards privacy-safe synthetic French clinical documents

Riccardo Tripodi, Simon Meoni

Abstract : Les modèles de langues médicaux requierent de grands corpus annotés, rares en français et soumis à des restrictions en matière de confidentialité. Nous présentons un pipeline préservant la confidentialité qui produit un LLM médical français déployable sans utiliser de textes de patients pendant l'entraînement. À partir d'une correspondance établie entre les codes diagnostics CIM-10 et les mots-clés médicaux, un LLM médical génère des rapports synthétiques associés aux codes, formant ainsi un jeu de données de base exempt de dossiers cliniques réels. Ce jeu de données permet d'entraîner un modèle local plus petit, ensuite affiné de manière itérative au sein de l'hôpital sans qu'aucune donnée confidentielle ne quitte l'établissement. Pour évaluer l'utilité clinique de cette méthodologie, nous entraînons des classificateurs CIM-10 exclusivement sur les rapports synthétiques produits à chaque étape de raffinement. L'amélioration de la qualité de génération se traduit par de meilleures performances sur des données réelles, traduisant une pertinence médicale accrue. Ces résultats montrent que des connaissances structurées et un retour d'information sécurisé permettent le transfert de compétence clinique à un LLM français léger tout en produisant un ensemble de données synthétiques partageables bienvenues pour un NLP médical manquant de ressources.

Keywords : Génération de données synthétiques, Codage CIM-10, NLP médical, Apprentissage par renforcement, Confidentialité des données, Rapports de sortie