talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Modèles statistiques pour l’estimation automatique de la difficulté de textes de FLE

Thomas François

Résumé : La lecture constitue l’une des tâches essentielles dans l’apprentissage d’une langue étrangère. Toutefois, la découverte d’un texte portant sur un sujet précis et qui soit adapté au niveau de chaque apprenant est consommatrice de temps et pourrait être automatisée. Des expériences montrent que, pour l’anglais, l’utilisation de classifieurs statistiques permet d’estimer automatiquement la difficulté d’un texte. Dans cet article, nous proposons une méthodologie originale comparant, pour le français langue étrangère (FLE), diverses techniques de classification (la régression logistique, le bagging et le boosting) sur deux corpus d’entraînement. Il ressort de cette analyse comparative une légère supériorité de la régression logistique multinomiale.

Abstract : Reading is known to be an essential task in language learning, but finding the appropriate text for every learner is far from easy. In this context, automatic procedures can support the teacher’s work. Some works on English reveal that it is possible to assess the readability of texts using statistical classifiers. In this paper, we present an original approach comparing various classification techniques, namely logistic regression, bagging and boosting on two training corpora. The results show a slight superiority for multinomial logistic regression over bagging or boosting.

Mots clés : lisibilité, régression logistique, bagging, boosting, modèle de langue

Keywords : readability, logistic regression, bagging, boosting, language model