talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Ressources lexicales chinoises pour le TALN

Huei-Chi Lin, Max Silberztein

Résumé : Nous voulons traiter des textes chinois automatiquement ; pour ce faire, nous formalisons le vocabulaire chinois, en utilisant principalement des dictionnaires et des grammaires morphologiques et syntaxiques formalisés avec le logiciel NooJ. Nous présentons ici les critères linguistiques qui nous ont permis de construire dictionnaires et grammaires, sachant que l’application envisagée (linguistique de corpus) nous impose certaines contraintes dans la formalisation des unités de la langue, en particulier des composés.

Abstract : In order to parse Chinese texts automatically, we need to formalize the Chinese vocabulary by using electronic dictionaries and morphological and syntactic grammars. We have used the NooJ software to enter the formalization. We present here the set of linguistic criteria used to construct these dictionaries and grammars, so that they can be used by corpus-linguistic applications. We focus our discussion on the characterization of Chinese linguistic units, specifically compounds.

Mots clés : ressources linguistiques pour le chinois, linguistique de corpus, NooJ

Keywords : linguistic resources for chinese, corpus linguistics, NooJ