talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une chaîne de traitement pour prédire et appréhender la complexité des textes pour enfants d'un point de vue linguistique

Delphine Battistelli, Aline Etienne, Rashedur Rahman, Charles Teissèdre, Gwénolé Lecorvé

Résumé : Nos travaux abordent la question de la mesure de la complexité d’un texte vis-à-vis d’une cible de lecteurs, les enfants en âge de lire, au travers de la mise en place d’une chaîne de traitements. Cette chaîne vise à extraire des descripteurs linguistiques, principalement issus de travaux en psycholinguistique et de travaux sur la lisibilité, mobilisables pour appréhender la complexité d’un texte. En l’appliquant sur un corpus de textes de fiction, elle permet d’étudier des corrélations entre certains descripteurs linguistiques et les tranches d’âges associées aux textes par les éditeurs. L’analyse de ces corrélations tend à valider la pertinence de la catégorisation en âges par les éditeurs. Elle justifie ainsi la mobilisation d’un tel corpus pour entraîner à partir des âges éditeurs un modèle de prédiction de l’âge cible d’un texte.

Mots clés : complexité d’un texte, âge, descripteurs linguistiques, étapes développementales.