talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Classification automatique de dictées selon leur niveau de difficulté de compréhension et orthographique

Adeline Müller, Thomas Francois, Sophie Roekhaut, Cedrick Fairon

Résumé : Cet article présente une approche visant à évaluer automatiquement la difficulté de dictées en vue de les intégrer dans une plateforme d’apprentissage de l’orthographe. La particularité de l’exercice de la dictée est de devoir percevoir du code oral et de le retranscrire via le code écrit. Nous envisageons ce double niveau de difficulté à l’aide de 375 variables mesurant la difficulté de compréhension d’un texte ainsi que les phénomènes orthographiques et grammaticaux complexes qu’il contient. Un sous-ensemble optimal de ces variables est combiné à l’aide d’un modèle par machines à vecteurs de support (SVM) qui classe correctement 56% des textes. Les variables lexicales basées sur la liste orthographique de Catach (1984) se révèlent les plus informatives pour le modèle.

Mots clés : dictée, lisibilité, orthographe, ALAO.