Une approche linguistique pour la détection des dialectes arabes
Houda Saâdane, Damien Nouvel, Hosni Seffih, Christian Fluhr
Résumé : Dans cet article, nous présentons un processus d’identification automatique de l’origine dialectale pour la langue arabe de textes écrits en caractères arabes ou en écriture latine (arabizi). Nous décrivons le processus d’annotation des ressources construites et du système de translittération adopté. Deux approches d’identification de la langue sont comparées : la première est linguistique et exploite des dictionnaires, la seconde est statistique et repose sur des méthodes traditionnelles d’apprentissage automatique (n-grammes). L’évaluation de ces approches montre que la méthode linguistique donne des résultats satisfaisants, sans être dépendante des corpus d’apprentissage.
Mots clés : dialectes arabes, arabizi, alternance codique, translittération, identification des dialectes, analyse morphologique.