Modélisation de la lisibilité en français pour les personnes en situation d'illettrisme
Wafa Aissa, Thibault Bañeras-Roux, Elodie Vanzeveren, Lingyun Gao, Alice Pintard, Rodrigo Wilkens, Thomas François
Résumé : Nous présentons une nouvelle formule de lisibilité en français spécifiquement conçue pour les personnes en situation d'illettrisme. À cette fin, nous avons construit un corpus de 461 textes annotés selon une échelle de difficulté spécialisée à ce public. Dans un second temps, nous avons systématiquement comparé les principales approches en lisibilité, incluant l'apprentissage automatique reposant sur des variables linguistiques, le fine-tuning de CamemBERT, une approche hybride combinant CamemBERT et des variables linguistiques et des modèles de langue génératifs (LLMs). Une analyse approfondie de ces modèles et de leurs performances est menée afin d'évaluer leur applicabilité dans des contextes réels.
Mots clés : lisibilité, illettrisme, français, TAL, modèles hybrides, modèles génératifs