talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Paraphrases et modifications locales dans l'historique des révisions de Wikipédia

Camille Dutrey, Houda Bouamor, Delphine Bernhard, Aurélien Max

Résumé : Dans cet article, nous analysons les modifications locales disponibles dans l'historique des révisions de la version française de Wikipédia. Nous définissons tout d'abord une typologie des modifications fondée sur une étude détaillée d'un large corpus de modifications. Puis, nous détaillons l'annotation manuelle d'une partie de ce corpus afin d'évaluer le degré de complexité de la tâche d'identification automatique de paraphrases dans ce genre de corpus. Enfin, nous évaluons un outil d'identification de paraphrases à base de règles sur un sous-ensemble de notre corpus.

Abstract : In this article, we analyse the modifications available in the French Wikipédia revision history. We first define a typology of modifications based on a detailed study of a large corpus of modifications. Moreover, we detail a manual annotation study of a subpart of the corpus aimed at assessing the difficulty of automatic paraphrase identification in such a corpus. Finally, we assess a rule-based paraphrase identification tool on a subset of our corpus.

Mots clés : Wikipédia, révisions, identification de paraphrases

Keywords : Wikipedia, revisions, paraphrase identification