talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un nouveau schéma de pondération pour la catégorisation de documents manuscrits

Sebastián Peña Saldarriaga, Emmanuel Morin, Christian Viard-Gaudin

Résumé : Les schémas de pondération utilisés habituellement en catégorisation de textes, et plus généralement en recherche d’information (RI), ne sont pas adaptés à l’utilisation de données liées à des textes issus d’un processus de reconnaissance de l’écriture. En particulier, les candidats-mot à la reconnaissance ne pourraient être exploités sans introduire de fausses occurrences de termes dans le document. Dans cet article nous présentons un nouveau schéma de pondération permettant d’exploiter les listes de candidats-mot. Il permet d’estimer le pouvoir discriminant d’un terme en fonction de la probabilité a posteriori d’un candidat-mot dans une liste de candidats. Les résultats montrent que le taux de classification de documents fortement dégradés peut être amélioré en utilisant le schéma proposé.

Abstract : The traditional weighting schemes used in information retrieval, and especially in text categorization cannot exploit information intrinsic to texts obtained through an on-line handwriting recognition process. In particular, top n (n > 1) candidates could not be used without introducing false occurrences of spurious terms thus making the resulting text noisier. In this paper, we propose an improved weighting scheme for text categorization, that estimates a term importance from the posterior probabilities of the top n candidates. The experimental results show that the categorization rate of poorly recognized texts increases when our weighting model is applied.

Mots clés : Catégorisation de textes, écriture en-ligne, n-best candidats, pondération

Keywords : Text categorization, on-line handwriting, n-best candidates, weighting