talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Approches à base de fréquences pour la simplification lexicale

Anne-Laure Ligozat, Cyril Grouin, Anne Garcia-Fernandez, Delphine Bernhard

Résumé : La simplification lexicale consiste à remplacer des mots ou des phrases par leur équivalent plus simple. Dans cet article, nous présentons trois modèles de simplification lexicale, fondés sur différents critères qui font qu’un mot est plus simple à lire et à comprendre qu’un autre. Nous avons testé différentes tailles de contextes autour du mot étudié : absence de contexte avec un modèle fondé sur des fréquences de termes dans un corpus d’anglais simplifié ; quelques mots de contexte au moyen de probabilités à base de n-grammes issus de données du web ; et le contexte étendu avec un modèle fondé sur les fréquences de cooccurrences.

Abstract : Lexical simplification aims at replacing words or phrases by simpler equivalents. In this paper, we present three models for lexical simplification, focusing on the criteria that make one word simpler to read and understand than another. We tested different contexts of the considered word : no context, with a model based on word frequencies in a simplified English corpus ; a few words context, with n-grams probabilites on Web data, and an extended context, with a model based on co-occurrence frequencies.

Mots clés : simplification lexicale, fréquence lexicale, modèle de langue

Keywords : lexical simplification, lexical frequency, language model