talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Découverte de patrons paraphrastiques en corpus comparable: une approche basée sur les n-grammes

Bruno Cartoni, Louise Deléger

Résumé : Cet article présente l'utilisation d'un corpus comparable pour l'extraction de patrons de paraphrases. Nous présentons une méthode empirique basée sur l'appariement de n-grammes, permettant d'extraire des patrons de paraphrases dans des corpus comparables d'une même langue (le français), du même domaine (la médecine) mais de registres de langues différents (spécialisé ou grand public). Cette méthode confirme les résultats précédents basés sur des méthodes à base de patrons, et permet d'identifier de nouveaux patrons, apportant également un regard nouveau sur les différences entre les discours de langue générale et spécialisée.

Abstract : This paper presents the use of a comparable corpus for extracting paraphrase patterns. We present an empirical method based on n-gram matching and ordering, to extract paraphrase pattern in comparable corpora of the same language (French) and the same domaine, but of two different registers (lay and specialised). This method confirms previous results from pattern-based methods, and identify new patterns, giving fresh look on the difference between specialised and lay discourse.

Mots clés : Identification de paraphrases, extraction de patrons, type de discours, domaine médical, corpus comparable monolingue

Keywords : paraphrase identification, lexico-syntactic pattern discovery, discourse type, medical domain, monolingual comparable corpora