talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Élaboration automatique d’un dictionnaire de cooccurrences grand public

Simon Charest, Éric Brunelle, Jean Fontaine, Bertrand Pelletier

Résumé : Antidote RX, un logiciel d’aide à la rédaction grand public, comporte un nouveau dictionnaire de 800 000 cooccurrences, élaboré essentiellement automatiquement. Nous l’avons créé par l’analyse syntaxique détaillée d’un vaste corpus et par la sélection automatique des cooccurrences les plus pertinentes à l’aide d’un test statistique, le rapport de vraisemblance. Chaque cooccurrence est illustrée par des exemples de phrases également tirés du corpus automatiquement. Les cooccurrences et les exemples extraits ont été révisés par des linguistes. Nous examinons les choix d’interface que nous avons faits pour présenter ces données complexes à un public non spécialisé. Enfin, nous montrons comment nous avons intégré les cooccurrences au correcteur d’Antidote pour améliorer ses performances.

Abstract : Antidote is a complete set of software reference tools for writing French that includes an advanced grammar checker. Antidote RX boasts a new dictionary of 800,000 cooccurrences created mostly automatically. The approach we chose is based on the syntactic parsing of a large corpus and the automatic selection of the most relevant co-occurrences using a statistical test, the log-likelihood ratio. Example sentences illustrating each cooccurrence in context are also automatically selected. The extracted co-occurrences and examples were revised by linguists. We examine the various choices that were made to present this complex data to a non-specialized public. We then show how we use the cooccurrence data to improve the performance of Antidote’s grammar checker.

Mots clés : antidote, cooccurrences, collocations, corpus, analyseur, correcteur

Keywords : antidote, co-occurrences, collocations, corpus, parser, grammar checker