talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Pré-traiter les données d'écriture en temps réel

Kehina Manseri, Amandine Jouvenel

Résumé : Traiter les données d’écriture en temps réel est une tâche complexe, ces dernières combinant des informations spatiales et temporelles, et conservant les traces du processus d’écriture. Les outils actuels de traitement des données linguistiques - comme les tokenizeurs, les étiqueteurs morpho-syntaxiques ou les parseurs syntaxiques - ne sont pas conçus ni entraînés pour traiter ce type de corpus et de données à haute dimensionalité. Cela soulève donc la problématique du traitement automatique des données d’écriture dynamique. Le travail présenté ici constitue une série de premières expériences portant sur l’étiquetage morpho-syntaxique et le chunking de ces données. Il vise à annoter les données tout en prenant en compte les traces de l’écriture en temps réel, appelées ici disfluences.

Mots clés : Données d’écriture en temps réel étiquetage morpho-syntaxique chunking pré-traitement disfluences