talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Evaluation d’une approche de classification possibiliste pour la désambiguïsation des textes arabes

Raja Ayed, Ibrahim Bounhas, Bilel Elayeb, Narjès Bellamine Ben Saoud, Fabrice Evrard

Résumé : La désambiguïsation morphologique d’un mot arabe consiste à identifier l’analyse morphologique appropriée correspondante à ce mot. Dans cet article, nous présentons trois modèles de désambiguïsation morphologique de textes arabes non voyellés basés sur la classification possibiliste. Cette approche traite les données imprécises dans les phases d’apprentissage et de test, étant donné que notre modèle apprend à partir de données non étiquetés. Nous testons notre approche sur deux corpus, à savoir le corpus du Hadith et le Treebank Arabe. Ces corpus contiennent des données de types différents classiques et modernes. Nous comparons nos modèles avec des classifieurs probabilistes et statistiques. Pour ce faire, nous transformons la structure des ensembles d’apprentissage et de test pour remédier au problème d’imperfection des données.

Abstract : Morphological disambiguation of Arabic words consists in identifying their appropriate morphological analysis. In this paper, we present three models of morphological disambiguation of non-vocalized Arabic texts based on possibilistic classification. This approach deals with imprecise training and testing datasets, as we learn from untagged texts. We experiment our approach on two corpora i.e. the Hadith corpus and the Arabic Treebank. These corpora contain data of different types: traditional and modern. We compare our models to probabilistic and statistical classifiers. To do this, we transform the structure of the training and the test sets to deal with imprecise data.

Mots clés : Traitement Automatique des Langues Naturelles, Désambiguïsation Morphologique de l’Arabe, Théorie des Possibilités, Classification Possibiliste

Keywords : Natural Language Processing, Arabic Morphological Disambiguation, Possibility Theory, Possibilistic Classification