talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Recherche des indices permettant une identification: l'anonymisation des transcriptions du corpus ESLO

Iris Eshkol-Taravella, Olivier Baude, Denis Maurel, Layal Kanaan-Caillol

Résumé : Cet article aborde la question de l'anonymisation automatique des corpus oraux afin de permettre leur utilisation et diffusion sur la Toile. Nous proposons une analyse des éléments constituant un « faisceau d'indices » qui, dans un certain contexte, contribue à l'identification. Ces indices dépassent par leur diversité et leur hétérogénéité les entités nommées. Nous décrivons ensuite une expérimentation du repérage automatique de ce faisceau d'indices dans les transcriptions.

Abstract : This article tackles the question of oral corpus anonymization in preparation for its diffusion on the Web. We first analyze elements constituting a "clues set" which contribute to the identification. Those clues exceed named entities by their diversity and heterogeneity. Then we describe an experiment based on a module of automatic recognition of its clues in the transcriptions.

Mots clés : anonymisation, anonymisation automatique, corpus oral, faisceau d'indices, données personnelles, identification

Keywords : anonymisation, automatic anonymisation, oral corpus, indications set, personal data, identification