talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

D’un corpus à l’identification automatique d’erreurs d’apprenants

Marie-Paule Jacques

Résumé : Nous présentons ici une étude préliminaire (work in progress) à l'élaboration d'un système dédié au repérage de zones potentielles d'erreurs dans des textes d'apprenants. Ce repérage permettra d'enrichir un corpus déjà constitué (que nous nommons Corpus de Littéracie Avancé) par un balisage des erreurs. Nous exposons ici la démarche adoptée pour mettre en place ce balisage : un appui sur certains textes du corpus qui sont commentés par les enseignants-correcteurs pour accéder directement aux passages problématiques, puis l'élaboration de requêtes formalisant les écarts à la norme repérés manuellement. Un exemple-jouet illustre la démarche.

Mots clés : corpus de textes d'apprenants, repérage des erreurs