talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Résolution d'anaphores appliquée aux collocations: une évaluation préliminaire

Luka Nerima, Éric Wehrli

Résumé : Le traitement des collocations en analyse et en traduction est depuis de nombreuses années au centre de nos intérêts de recherche. L’analyseur Fips a été récemment enrichi d’un module de résolution d’anaphores. Dans cet article nous décrivons comment la résolution d’anaphores a été appliquée à l’identification des collocations et comment cela permet à l’analyseur de repérer une collocation même si un de ses termes a été pronominalisé. Nous décrivons aussi la méthodologie de l’évaluation, notamment la préparation des données pour le calcul du rappel. Dans la tâche d’identification des collocations pronominalisées, Fips montre des résultats très encourageants : la précision mesurée est de 98% alors que le rappel est proche de 50%. Dans cette évaluation nous nous intéressons aux collocations de type verbe-objet direct en conjonction avec les pronoms anaphoriques à la 3e personne. Le corpus utilisé est un corpus anglais d’environ dix millions de mots.

Abstract : Collocation identification and collocation translation have been at the center of our research interests for several years. Recently, the Fips parser has been enriched by an anaphora resolution mechanism. This article discusses how anaphora resolution has been applied to the collocation identification task, and how it enables the parser to identify a collocation when one of its terms is pronominalized. We also describe the evaluation methodology, in particular the preparation of data for the calculation of the recall. In the task of pronominalized collocation identification, Fips shows encouraging results: the measured precision is 98% while recall approaches 50%. In this paper we focus on collocations of the type verb-direct object and on a widespread type of anaphora: the third personal pronouns. The corpus used is a corpus of approximately ten million English words.

Mots clés : Analyse, résolution d’anaphores, pronoms personnels, collocations, corpus

Keywords : Parsing, anaphora resolution, personal pronoun, collocations, corpus