talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Construction d’un corpus de paraphrases d’énoncés par traduction multiple multilingue

Houda Bouamor

Résumé : Les corpus de paraphrases à large échelle sont importants dans de nombreuses applications de TAL. Dans cet article nous présentons une méthode visant à obtenir un corpus parallèle de paraphrases d’énoncés en français. Elle vise à collecter des traductions multiples proposées par des contributeurs volontaires francophones à partir de plusieurs langues européennes. Nous formulons l’hypothèse que deux traductions soumises indépendamment par deux participants conservent généralement le sens de la phrase d’origine, quelle que soit la langue à partir de laquelle la traduction est effectuée. L’analyse des résultats nous permet de discuter cette hypothèse.

Abstract : Large scale paraphrase corpora are important for a variety of natural language processing applications. In this paper, we present an approach which collects multiple translations from several languages proposed by volunteers in order to obtain a parallel corpus of paraphrases in French. We hypothesize that two translations proposed independently by two volunteers usually retain the meaning of the original sentence, regardless of the language from which the translation is done. The analysis of results allows us to discuss this hypothesis.

Mots clés : corpus monolingue parallèle, paraphrases, traductions multiples

Keywords : monolingual parallel corpora, paraphrases, multiple translations