talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Validation sur le Web de reformulations locales: application à la Wikipédia

Houda Bouamor, Aurélien Max, Gabriel Illouz, Anne Vilnat

Résumé : Ce travail présente des expériences initiales en validation de paraphrases en contexte. Les révisions de Wikipédia nous servent de domaine d’évaluation : pour un énoncé ayant connu une courte révision dans l’encyclopédie, nous disposons d’un ensemble de réécritures possibles, parmi lesquelles nous cherchons à identifier celles qui correspondent à des paraphrases valides. Nous abordons ce problème comme une tâche de classification fondée sur des informations issues du Web, et parvenons à améliorer la performance de plusieurs techniques simples de référence.

Abstract : This works describes initial experiments on the validation of paraphrases in context. Wikipedia’s revisions are used : we assume that a set of possible rewritings are available for a given phrase that has been rewritten in the encyclopedia’s revision history, and we attempt to find the subset of those rewritings that can be considered as valid paraphrases. We tackle this problem as a classication task which we provide with features obtained from Web data. Our experiments show that our system improves performance over a set of simple baselines.

Mots clés : paraphrase, Wikipédia, aide à la rédaction

Keywords : paraphrasing, Wikipedia, authoring aids