talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Aligner production et normalisation : une première approche pour l’étude d’écrits scolaires

Claire Wolfarth

Résumé : L’émergence des corpus scolaires et la volonté d’outiller ces corpus spécifiques font apparaitre de nouvelles problématiques de recherche pour le traitement automatique des langues (TAL). Nous exposons ici une recherche qui vise le traitement de productions d’apprenants en début d’apprentissage de l’écriture, en vue d’une annotation et d’une exploitation ultérieure. À cette fin, nous proposons d’envisager cette étape comme une tâche d’alignement entre la production de l’apprenant et une normalisation produite manuellement. Ce procédé permet d’augmenter significativement les scores d’identification des formes et lemmes produits et améliore les perspectives d’annotation.

Mots clés : corpus scolaires, alignement, normalisation.