talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apport d’un modèle de langage statistique pour la reconnaissance de l’écriture manuscrite en ligne

Freddy Perraud, Emmanuel Morin, Christian Viard-Gaudin, Pierre-Michel Lallican

Résumé : Dans ce travail, nous étudions l’apport d’un modèle de langage pour améliorer les performances des systèmes de reconnaissance de l’écriture manuscrite en-ligne. Pour cela, nous avons exploré des modèles basés sur des approches statistiques construits par apprentissage sur des corpus écrits. Deux types de modèles ont été étudiés : les modèles n-grammes et ceux de type n-classes. En vue de l’intégration dans un système de faible capacité (engin nomade), un modèle n-classe combinant critères syntaxiques et contextuels a été défini, il a permis d’obtenir des résultats surpassant ceux donnés avec un modèle beaucoup plus lourd de type n-gramme. Les résultats présentés ici montrent qu’il est possible de prendre en compte les spécificités d’un langage en vue de reconnaître l’écriture manuscrite avec des modèles de taille tout à fait raisonnable.

Abstract : This works highlights the interest of a language model in increasing the performances of on-line handwriting recognition systems. Models based on statistical approaches, trained on written corpora, have been investigated. Two kinds of models have been studied: n-gram models and n-class models. In order to integrate it into small capacity systems (mobile device), a n-class model has been designed by combining syntactic and contextual criteria. It outperforms bulkier models based on n-gram. The results we obtain show that it is possible to take advantage of language specificities to recognize handwritten sentences by using reasonable size models.

Mots clés : Reconnaissance de l’écriture manuscrite, modèle de langage, n-gramme, n-classe, perplexité

Keywords : Handwriting recognition, language modelling, n-gram, n-class, perplexity