talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Word Segmentation for Vietnamese Text Categorization An Internet-based Statistic and Genetic Algorithm Approach

Hung Nguyen Thanh, Khanh Bui Doan

Résumé : Ce papier présente une nouvelle approche de la segmentation du vietnamien pour la catégorisation de texte. Au lieu d’utiliser des corpus d’entraînement annotés ou des lexiques (qui font défaut pour le vietnamien) nous utilisons des informations statistiques extraites directement d’un moteur de recherche commercial et des algorithmes génétiques pour trouver les segmentations les plus probables. Les informations extraites incluent la fréquence des documents et l’information mutuelle des n-grams. Nos résultats expérimentaux obtenus sur la segmentation et la catégorisation de résumés de nouvelles montrent que notre approche est très prometteuse. Elle offre des résultats semblables à 80 % avec le jugement humain sur la segmentation et à 90 % en catégorisation. Le temps de traitement est inférieur à une seconde par document quand l’information statistique est maintenue en cache.

Abstract : This paper suggests a novel Vietnamese segmentation approach for text categorization. Instead of using an annotated training corpus or a lexicon which are still lacking in Vietnamese, we use both statistical information extracted directly from a commercial search engine and a genetic algorithm to find the optimal routes to segmentation. The extracted information includes document frequency and n-gram mutual information. Our experiment results obtained on the segmentation and categorization of online news abstracts are very promising. It matches near 80 % human judgment on segmentation and over 90 % micro-averaging F1 in categorization. The processing time is less than one second per document when statistical information is cached.

Mots clés : catégorisation de texte, segmentation de texte, algorithmes génétiques

Keywords : text categorization, text segmentation, genetics algorithms