talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Classification automatique de données déséquilibrées et bruitées : application aux exercices de manuels scolaires

Elise Lincker, Camille Guinaudeau, Olivier Pons, Jérôme Dupire, Isabelle Barbet, Céline Hudelot, Vincent Mousseau, Caroline Huron

Résumé : Pour faciliter l'inclusion scolaire, il est indispensable de pouvoir adapter de manière automatique les manuels scolaires afin de les rendre accessibles aux enfants dyspraxiques. Dans ce contexte, nous proposons une tâche de classification des exercices selon leur type d'adaptation à la dyspraxie. Nous introduisons un corpus d'exercices extraits de manuels de français de niveau élémentaire, qui soulève certains défis de par sa petite taille et son contenu déséquilibré et bruité. Afin de tirer profit des modalités textuelles, structurelles et visuelles présentes dans nos données, nous combinons des modèles état de l'art par des stratégies de fusion précoce et tardive. Notre approche atteint une exactitude globale de 0.802. Toutefois, les expériences témoignent de la difficulté de la tâche, particulièrement pour les classes minoritaires, pour lesquelles l'exactitude tombe à 0.583.

Mots clés : adaptation de manuels scolaires, classification multimodale, données bruitées, données déséquilibrées