talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

RefGen : un module d’identification des chaînes de référence dépendant du genre textuel

Laurence Longo, Amalia Todiraşcu

Résumé : Dans cet article, nous présentons RefGen, un module d’identification des chaînes de référence pour le français. RefGen effectue une annotation automatique des expressions référentielles puis identifie les relations de coréférence établies entre ces expressions pour former des chaînes de référence. Le calcul de la référence utilise des propriétés des chaînes de référence dépendantes du genre textuel, l’échelle d’accessibilité d’(Ariel, 1990) et une série de filtres lexicaux, morphosyntaxiques et sémantiques. Nous évaluons les premiers résultats de RefGen sur un corpus issu de rapports publics.

Abstract : We present RefGen, a reference chain identification module for French. RefGen automatically annotates referential expressions then identifies coreference relations between these expressions to make reference chains. Reference calculus uses textual genre specific properties of reference chains, (Ariel, 1990)’s accessibility theory and applies lexical, morphosyntactic and semantic filters. We evaluate the first results obtained by RefGen from a public reports corpus.

Mots clés : Chaînes de référence, relation de coréférence, saillance, genre textuel

Keywords : Reference chain identification, coreference relation, salience, genre