talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Outils de segmentation du chinois et textométrie

Li-Chi Wu

Résumé : La segmentation en mots est une première étape possible dans le traitement automatique de la langue chinoise. Les systèmes de segmentation se sont beaucoup développés depuis le premier apparu dans les années 1980. Il n’existe cependant aucun outil standard aujourd’hui. L’objectif de ce travail est de faire une comparaison des différents outils de segmentation en s’appuyant sur une analyse statistique. Le but est de définir pour quel type de texte chacun d’eux est le plus performant. Quatre outils de segmentation et deux corpus avec des thèmes distincts ont été choisis pour cette étude. À l’aide des outils textométriques Lexico3 et mkAlign, nous avons centré notre analyse sur le nombre de syllabes du chinois. Les données quantitatives ont permis d’objectiver des différences entre les outils. Le système Hylanda s’avère performant dans la segmentation des termes spécialisés et le système Stanford est plus indiqué pour les textes généraux. L’étude de la comparaison des outils de segmentation montre le statut incontournable de l’analyse textométrique aujourd’hui, celle-ci permettant d’avoir accès rapidement à la recherche d’information.

Abstract : Chinese word segmentation is the first step in Chinese natural language processing. The system of segmentation has considerably developed since the first automatic system of segmentation of the 1980’s. However, till today there are no standard tools. The aim of this paper is to compare various tools of segmentation by through statistical analysis. Our goal is to identify the kind of texts for which these segmentation tools are the most effective. This study chose four segmentation tools and two corpora, marked by distinct themes. Using two textometric toolboxes, Lexico3 and mkAlign, we focused on the number of syllables in Chinese. The quantitative data allowed us to objectify disparities between tools. The Hylanda system turns out to be effective in the segmentation of specialized terms and the Stanford system is more appropriate for general texts. The comparative study of segmenters shows the undeniable status of textometrical analysis which is able to quickly access information retrieval.

Mots clés : Textométrie, comparaison des segmenteurs chinois, nombre de syllabes

Keywords : Textometry, comparison of Chinese segmenters, number of syllables