Recherche des indices permettant une identification: l'anonymisation des transcriptions du corpus ESLO
Iris Eshkol-Taravella, Olivier Baude, Denis Maurel, Layal Kanaan-Caillol
Résumé : Cet article aborde la question de l'anonymisation automatique des corpus oraux afin de permettre leur utilisation et diffusion sur la Toile. Nous proposons une analyse des éléments constituant un « faisceau d'indices » qui, dans un certain contexte, contribue à l'identification. Ces indices dépassent par leur diversité et leur hétérogénéité les entités nommées. Nous décrivons ensuite une expérimentation du repérage automatique de ce faisceau d'indices dans les transcriptions.
Abstract : This article tackles the question of oral corpus anonymization in preparation for its diffusion on the Web. We first analyze elements constituting a "clues set" which contribute to the identification. Those clues exceed named entities by their diversity and heterogeneity. Then we describe an experiment based on a module of automatic recognition of its clues in the transcriptions.
Mots clés : anonymisation, anonymisation automatique, corpus oral, faisceau d'indices, données personnelles, identification
Keywords : anonymisation, automatic anonymisation, oral corpus, indications set, personal data, identification