talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Acquisition semi-automatique de collocations à partir de corpus monolingues et multilingues comparables

Vincent Archer

Résumé : Cet article présente une méthode d’acquisition semi-automatique de collocations. Notre extraction monolingue estime pour chaque co-occurrence sa capacité à être une collocation, d’après une mesure statistique modélisant une caractéristique essentielle (le fait qu’une collocation se produit plus souvent que par hasard), effectue ensuite un filtrage automatique (en utilisant les vecteurs conceptuels) pour ne retenir que des collocations d’un certain type sémantique, puis effectue enfin un nouveau filtrage à partir de données entrées manuellement. Notre extraction bilingue est effectuée à partir de corpus comparables, et a pour but d’extraire des collocations qui ne soient pas forcément traductions mot à mot l’une de l’autre. Notre évaluation démontre l’intérêt de mêler extraction automatique et intervention manuelle pour acquérir des collocations et ainsi permettre de compléter les bases lexicales multilingues.

Abstract : This paper presents a method for the semi-automatic acquisition of collocations. Our monolingual extraction estimates the ability of each co-occurrence to be a collocation, using a statitical measure which represents an essential property (the fact that a collocation occurs more often than would be expected by chance), then makes an automatic filtering (using conceptual vectors) to keep only one semantic type of collocation, and finally makes a new filtering, using manually entered data. Our bilingual extraction uses comparable corpora, and is aiming to extract collocations which are not necessarily word-to-word translations. Our evaluation shows the interest of mixing automatic extraction and manual intervention to obtain collocations and, in this manner, to complete multilingual lexical databases.

Mots clés : collocations, acquisition semi-automatique, corpus comparables

Keywords : collocations, semi-automatic acquisition, comparable corpora