talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étude des risques de réidentification des patients à partir d'un corpus désidentifié de comptes-rendus cliniques en français

Cyril Grouin, Nicolas Griffon, Aurélie Névéol

Résumé : La désidentification permet de préserver le secret médical lors de l'utilisation de documents cliniques pour faire avancer la recherche médicale. Cet article présente une évaluation des risques de réidentification des patients sur un corpus désidentifié de comptes-rendus cliniques en français. Les informations identifiantes sont marquées automatiquement dans le corpus, puis remplacées par des substituts plausibles. Les documents ainsi désidentifiés sont présentés à six évaluateurs avec une connaissance variable des documents et de la méthode de désidentification employée, afin qu'ils réidentifient les patients. La quantité d'informations identifiantes retrouvées semble liée à la familiarité des évaluateurs avec les documents et la méthode de désidentification. L'introduction de substituts géographiques de la même provenance que les documents originaux semble mieux préserver la confidentialité. Les informations retrouvées par les évaluateurs ne permettent pas de réidentifier les patients, sauf en cas d'accès privilégié au système d'information hospitalier de l'établissement d'origine des documents.

Abstract : De-identification aims at preserving patient confidentiality while enabling the use of clinical documents for furthering medical research. Herein, we evaluate patient re-identification risks on a corpus of clinical documents in French. Personal Health Identifiers are automatically marked by a de-identification system applied to the corpus, followed by reintroduction of plausible surrogates. The resulting documents are shown to individuals with varying knowledge of the documents and de-identification method. The individuals are asked to re-identify the patients. The amount of information recovered increases with familiarity with the documents and/or de-identification method. Surrogate re-introduction with localization from the same (vs. different) geographical area as the original documents is more effective. The amount of information recovered was not sufficient to re-identify any of the patients, except when privileged access to the hospital health information system and several documents about the same patient were available.

Mots clés : Désidentification, réidentification, dossiers médicaux éléctroniques, vie privée

Keywords : De-identification, Re-identification, Electronic Health Records, Privacy