talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Une approche linguistique pour la détection des dialectes arabes

Houda Saâdane, Damien Nouvel, Hosni Seffih, Christian Fluhr

Résumé : Dans cet article, nous présentons un processus d’identification automatique de l’origine dialectale pour la langue arabe de textes écrits en caractères arabes ou en écriture latine (arabizi). Nous décrivons le processus d’annotation des ressources construites et du système de translittération adopté. Deux approches d’identification de la langue sont comparées : la première est linguistique et exploite des dictionnaires, la seconde est statistique et repose sur des méthodes traditionnelles d’apprentissage automatique (n-grammes). L’évaluation de ces approches montre que la méthode linguistique donne des résultats satisfaisants, sans être dépendante des corpus d’apprentissage.

Mots clés : dialectes arabes, arabizi, alternance codique, translittération, identification des dialectes, analyse morphologique.