talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un système de segmentation du chinois basé sur des triplets

Yiping Li

Résumé : Un des problèmes rencontrés lors de l’analyse de textes en chinois est qu’il n’existe pas de séparateur entré lés mots dans cette langue. Le mot étant une unité linguistique fondamentale en traitement automatique dé la langue, il est nécessaire d'identifier les mots dans un texte chinois afin que des analysés de plus haut niveau puissent être réalisées. Le but de cet article est dé présenter un système d’idéntification dés mots basé sur un algorithme utilisant des triplets dé catégories grammaticales ét dés fréquences de mots. Cé système comprend deux dictionnaires : l’un dédié aux mots ét à léurs fréquences, l’autré aux triplets dés catégories correspondantes. Les tests qui ont été effectués révèlent que 98,5% dés phrases sont découpées correctement. Certaines erreurs sont dués à la taillé limitée du dictionnaire utilisé. Une réflexion sur la création de nouvelles catégories ét dés études proposant des règles grammaticales sont en cours de réalisation afin d’aug1nénter la performance du système.

Abstract : One of the problems encountered by Chinese texts analysis is that there is no separator between the words in this language. As a fundamental linguistic unit in automatic treatment of the language, word is necessary to be identified in a Chinese text so that higher-level analyses can be carried out. The goal of this work is to develop a system, identifying words, based on an algorithm of triplets of grammatical categories and words frequencies. This system contains two dictionaries. One is dedicated to the words and their frequencies, the other, to the triplets of the corresponding categories. The tests carried out reveal that this system works very well, 98.5% of the sentences are segmented correctly. Thus, a reflection about the creation of new categories and the study proposing the grammatical rules are carrying out to improve the performance of the triplets.

Mots clés : Tokenisation, segmentation du chinois, ngrammes, approche statistique, maximum matching

Keywords : Chinese segmentation, ngrams, statistical approach, maximum matching