talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Combinaison d'informations pour l'alignement monolingue

Houda Bouamor, Aurélien Max, Anne Vilnat

Résumé : Dans cet article, nous décrivons une nouvelle méthode d'alignement automatique de paraphrases d'énoncés. Nous utilisons des méthodes développées précédemment afin de produire différentes approches hybrides (hybridations). Ces différentes méthodes permettent d'acquérir des équivalences textuelles à partir d'un corpus monolingue parallèle. L'hybridation combine des informations obtenues par diverses techniques : alignements statistiques, approche symbolique, fusion d'arbres syntaxiques et alignement basé sur des distances d'édition. Nous avons évalué l'ensemble de ces résultats et nous constatons une amélioration sur l'acquisition de paraphrases sous-phrastiques.

Abstract : In this paper, we detail a new method to automatic alignment of paraphrase of statements.We also use previously developed methods to produce different hybrid approaches. These methods allow the acquisition of textual equivalence from a parallel monolingual corpus. Hybridization combines information obtained by using advanced statistical alignments, symbolic approach, syntax tree based alignment and edit distances technique. We evaluated all these results and we see an improvement on the acquisition of sub-sentential paraphrases.

Mots clés : Paraphrase sous-phrastique, corpus parallèle monolingue, hybridation

Keywords : Phrasal paraphrase, monolingual parallel corpora, hybridization