talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Au-delà de la paire de mots : extraction de cooccurrences syntaxiques multilexémiques

Simon Charest, Éric Brunelle, Jean Fontaine

Résumé : Cet article décrit l’élaboration de la deuxième édition du dictionnaire de cooccurrences du logiciel d’aide à la rédaction Antidote. Cette nouvelle mouture est le résultat d’une refonte complète du processus d’extraction, ayant principalement pour but l’extraction de cooccurrences de plus de deux unités lexicales. La principale contribution de cet article est la description d’une technique originale pour l’extraction de cooccurrences de plus de deux mots conservant une structure syntaxique complète.

Abstract : This article describes the elaboration of the second edition of the co-occurrence dictionary included in Antidote HD, a commercial software tool for writing in French. This second edition is the result of a complete overhaul of the extraction process, with the objective of extracting co-occurrences of more than two lexical units. The main contribution of this article is the description of an original method for extracting co-occurrences of more than two words retaining their full syntactic structure.

Mots clés : Antidote, cooccurrences, collocations, expressions multimots

Keywords : Antidote, co-occurrences, collocations, multi-word expressions (MWE)