talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une plate-forme générique et ouverte pour l’acquisition des expressions polylexicales

Carlos Ramisch

Résumé : Cet article présente et évalue une plate-forme ouverte et flexible pour l’acquisition automatique d’expressions polylexicales (EPL) à partir des corpus monolingues. Nous commençons par une motivation pratique suivie d’une discussion théorique sur le comportement et les défis posés par les EPL dans les applications de TAL. Ensuite, nous décrivons les modules de notre plate-forme, leur enchaînement et les choix d’implémentation. L’évaluation de la plate-forme a été effectuée à travers une applications : la lexicographie assistée par ordinateur. Cette dernière peut bénéficier de l’acquisition d’EPL puisque les expressions acquises automatiquement à partir des corpus peuvent à la fois accélérer la création et améliorer la qualité et la couverture des ressources lexicales. Les résultats prometteurs encouragent une recherche plus approfondie sur la manière optimale d’intégrer le traitement des EPL dans de nombreuses applications de TAL, notamment dans les systèmes traduction automatique.

Abstract : In this paper, we present and evaluate an open and flexible methodological framework for the automatic acquisition of multiword expressions (MWEs) from monolingual textual corpora. We start with a pratical motivation followed by a theoretical discussion of the behaviour and of the challenges that MWEs pose for NLP applications. Afterwards, we describe the modules of our framework, the overall pipeline and the design choices of the tool implementing the framework. The evaluation of the framework was performed extrinsically based on an application : computerassisted lexicography. This application can benefit from MWE acquisition because the expressions acquired automatically from corpora can both speed up the creation and improve the quality and the coverage of the lexical resources. The promising results of previous and ongoing experiments encourage further investigation about the optimal way to integrate MWE treatment into NLP applications, and particularly into machine translation systems.

Mots clés : Expressions polylexicales, extraction lexicale, lexique, mesures d’association, corpus, lexicographie

Keywords : Multiword expression, lexical extraction, lexicon, association measures, corpus, lexicography