talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une étude en 3D de la paraphrase: types de corpus, langues et techniques

Houda Bouamor, Aurélien Max, Anne Vilnat

Résumé : Cet article présente une étude détaillée de l’impact du type du corpus sur la tâche d’acquisition de paraphrases sous-phrastiques. Nos expériences sont menées sur deux langues et quatre types de corpus, et incluent une combinaison efficace de quatre systèmes d’acquisition de paraphrases. Nous obtenons une amélioration relative de plus de 27% en F-mesure par rapport au meilleur système, en anglais et en français, ainsi qu’une amélioration relative à notre combinaison de systèmes de 22% pour l’anglais et de 5% pour le français quand tous les types de corpus sont utilisés pour l’acquisition depuis le type de corpus le plus couramment disponible.

Abstract : In this paper, we report a detailed study of the impact of corpus type on the task of sub-sentential paraphrase acquisition. Our experiments are for 2 languages and 4 corpus types, and involve an efficient machine learning-based combination of 4 paraphrase acquisition systems. We obtain relative improvements of more than 27% in F-measure over the best individual system on English and French, and obtain a relative improvement over the combination system of 22% for English and 5% for French when using all other corpus types as additional training data for our most readily available corpus type.

Mots clés : acquisition de paraphrases, constitution de corpus

Keywords : paraphrase acquisition, corpus collection