talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un modèle pour prédire la complexité lexicale et graduer les mots

Núria Gala, Thomas François, Delphine Bernhard, Cédrick Fairon

Résumé : Analyser la complexité lexicale est une tâche qui, depuis toujours, a principalement retenu l’attention de psycholinguistes et d’enseignants de langues. Plus récemment, cette problématique a fait l’objet d’un intérêt grandissant dans le domaine du traitement automatique des langues (TAL) et, en particulier, en simplification automatique de textes. L’objectif de cette tâche est d’identifier des termes et des structures difficiles à comprendre par un public cible et de proposer des outils de simplification automatisée de ces contenus. Cet article aborde la question lexicale en identifiant un ensemble de prédicteurs de la complexité lexicale et en évaluant leur efficacité via une analyse corrélationnelle. Les meilleures de ces variables ont été intégrées dans un modèle capable de prédire la difficulté lexicale dans un contexte d’apprentissage du français.

Abstract : Analysing lexical complexity is a task that has mainly attracted the attention of psycholinguists and language teachers. More recently, this issue has seen a growing interest in the field of Natural Language Processing (NLP) and, in particular, that of automatic text simplification. The aim of this task is to identify words and structures which may be difficult to understand by a target audience and provide automated tools to simplify these contents. This article focuses on the lexical issue by identifying a set of predictors of the lexical complexity whose efficiency are assessed with a correlational analysis. The best of those variables are integrated into a model able to predict the difficulty of words for learners of French.

Mots clés : complexité lexicale, analyse morphologique, mots gradués, ressources lexicales

Keywords : lexical complexity, morphological analysis, graded words, lexical resources