talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Comparaison de deux outils d'analyse de corpus japonais pour l'aide au linguiste, Sagace et Mecab

Raoul Blin

Résumé : L'objectif est de comparer deux outils d'analyse de corpus de textes bruts pour l'aide à la recherche en linguistique japonaise. Les deux outils représentent chacun une approche spécifique. Le premier, Sagace, recherche un patron sans prise en compte de son environnement. Le second, un dispositif à base de Mecab, recherche les patrons après analyse morphologique complète des phrases. Nous comparons les performances en temps et en précision. Il ressort de cette analyse que les performances de Sagace sont globalement un peu inférieures à celles des dispositifs à base de Mecab, mais qu'elles restent tout à fait honorables voire meilleures pour certaines tâches.

Abstract : The purpose is to compare two tools used for helping linguist to analyze large corpora of raw japanese text. Each tool is representative of a specific approach. The first one, Sagace, search a pattern without taking into account its distribution. The second one is based on the morphological analyzer Mecab. It first analyzes the whole sentence before counting the searched pattern. We compare the processing time, needed ressources, and the quality of the results. It appears that performances of Sagace are globaly slightly lower than the Mecab system, but it doesn't defer so much. It may even be punctually better.

Mots clés : Japonais, Corpus, Analyseurs, Mecab, Sagace

Keywords : Japanese, Corpus, Comparison, Mecab, Sagace