talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Corpus multilingue annoté pour l'étude sémantique des expressions quantifiantes – Problèmes de segmentation du coréen et du japonais

Raoul Blin, Jinnam Choi

Résumé : Le travail présenté dans cet article s'inscrit dans le projet de constitution d'un corpus comparable, annoté pour l'étude sémantique de la quantification en coréen, français, japonais et chinois mandarin. Le corpus est annoté en dépendances au format SUD. Nous montrons la nécessité d'adopter une segmentation plus fine que celle en usage habituellement pour le coréen et le japonais. Cette segmentation améliore la description de la quantification dans environ 5% des phrases par rapport à la segmentation usuelle. Elle permet aussi une analyse morpho-syntaxique plus fine.

Mots clés : corpus comparable, quantification, coréen, japonais, SUD