Évaluation de la confidentialité des textes cliniques synthétiques générés par des modèles de langue
Foucauld Estignard, Sahar Ghannay, Julien Girard-Satabin, Nicolas Hiebel, Aurélie Névéol
Résumé : Les grands modèles de langue (LLM) peuvent être utilisés pour produire des documents synthétiques similaires à des documents réels dont la disponibilité est limitée pour des raisons de confidentialité ou de droits d'auteur. Dans cet article, nous étudions les risques en lien avec la confidentialité dans les documents générés automatiquement. Nous utilisons des textes synthétiques générés à partir d'un modèle pré-entraîné et affiné sur des cas cliniques en français afin d'évaluer ces risques selon trois critères : (1) la similarité entre un corpus d'entraînement réel et le corpus synthétique (2) les corrélations entre les caractéristiques cliniques dans le corpus d'entraînement et le corpus synthétique et (3) une attaque par inférence d'appartenance (MIA, en anglais) utilisant un modèle affiné sur le corpus synthétique. Nous identifions des associations de caractéristiques cliniques qui suggèrent que le filtrage du corpus d'entraînement pourrait contribuer à la préservation de la confidentialité. Les attaques par inférence d'appartenance n'ont pas été concluantes.
Mots clés : Confidentialité, Textes cliniques synthétiques, LLM.