talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Nouvelles considérations pour la détection de réutilisation de texte

Fabien Poulard, Stergos Afantenos, Nicolas Hernandez

Résumé : Dans cet article nous nous intéressons au problème de la détection de réutilisation de texte. Plus particulièrement, étant donné un document original et un ensemble de documents candidats — thématiquement similaires au premier — nous cherchons à classer ceux qui sont dérivés du document original et ceux qui ne le sont pas. Nous abordons le problème selon deux approches : dans la première, nous nous intéressons aux similarités discursives entre les documents, dans la seconde au recouvrement de n-grams hapax. Nous présentons le résultat d’expérimentations menées sur un corpus de presse francophone construit dans le cadre du projet ANR PIITHIE.

Abstract : In this article we are interested in the problem of text reuse. More specifically, given an original document and a set of candidate documents—which are thematically similar to the first one — we are interested in classifying them into those that have been derived from the original document and those that are not. We are approaching the problem in two ways : firstly we are interested in the discourse similarities between the documents, and secondly we are interested in the overlap of n-grams that are hapax. We are presenting the results of the experiments that we have performed on a corpus constituted from articles of the French press which has been created in the context of the PIITHIE project funded by the French National Agency for Research (Agence National de la Recherche, ANR).

Mots clés : réutilisation de texte, recouvrement de n-grams hapax, similarités discursives, corpus journalistique francophone

Keywords : text reuse, hapax n-grams overlap, discourse similarities, french journalistic corpus