talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Extraction de collocations à partir de textes

Béatrice Daille

Résumé : Les collocations sont intéressantes dans de nombreuses applications du TALN comme la l'analyse ou la génération de textes ou encore la lexicographie monolingue ou bilingue. Les premières tentatives d'extraction automatique de collocations à partir de textes ou de dictionnaires ont vu le jour dans les années 1970. Il s'agissait principalement de méthodes à base de statistiques lexicales. Aujourd'hui, les méthodes d'identification automatique font toujours appel à des statistiques mais qu'elles combinent avec des analyses linguistiques. Nous examinons quelques méthodes d'identification des collocations en corpus en soulignant pour chaque méthode les propriétés linguistiques des collocations qui ont été prises en compte.

Abstract : Collocations are interesting for several NLP applications such as language generation or analysis and monolingual or bilingual lexicography. The first approaches to finding collocations appeared in 1970's and were statistically based. Today, the methods adopted for the identification of collocations still include statistics but also linguistic processing. We introduce a few approaches to finding collocations in corpora. For each method, we precise the linguistic characteristic of collocation which as been taken into account.

Mots clés : collocations, statistiques lexicales, extraction automatique

Keywords : collocations, automatic identification, lexical statistics