talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Ngrammes et Traits Morphosyntaxiques pour la Identification de Variétés de l’Espagnol

Marcos Zampieri, Binyam Gebrekidan Gebre, Sascha Diwersy

Résumé : Notre article présente expérimentations portant sur la classification supervisée de variétés nationales de l’espagnol. Outre les approches classiques, basées sur l’utilisation de ngrammes de caractères ou de mots, nous avons testé des modèles calculés selon des traits morphosyntaxiques, l’objectif étant de vérifier dans quelle mesure il est possible de parvenir à une classification automatique des variétés d’une langue en s’appuyant uniquement sur des descripteurs grammaticaux. Les calculs ont été effectués sur la base d’un corpus de textes journalistiques de quatre pays hispanophones (Espagne, Argentine, Mexique et Pérou).

Abstract : This article presents supervised computational methods for the identification of Spanish varieties. The features used for this task were the classical character and word n-gram language models as well as POS and morphological information. The use of these features is to our knowledge new and we aim to explore the extent to which it is possible to identify language varieties solely based on grammatical differences. Four journalistic corpora from different countries were used in these experiments : Spain, Argentina, Mexico and Peru.

Mots clés : classification automatique, ngrammes, espagnol, variétés nationales

Keywords : automatic classification, n-grams, Spanish, language varieties