talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Etiquetage morpho-syntaxique des textes arabes par modèle de Markov caché

Abdelhamid El Jihad, Abdellah Yousfi

Résumé : L’étiquetage des textes est un outil très important pour le traitement automatique de langage, il est utilisé dans plusieurs applications par exemple l’analyse morphologique et syntaxique des textes, l’indexation, la recherche documentaire, la voyellation pour la langue arabe, les modèles de langage probabilistes (modèles n-classes), etc. Dans cet article nous avons élaboré un système d’étiquetage morpho-syntaxique de la langue arabe en utilisant les modèles de Markov cachés, et ceci pour construire un corpus de référence étiqueté et représentant les principales difficultés grammaticales rencontrées en langue arabe générale. Pour l’estimation des paramètres de ce modèle, nous avons utilisé un corpus d’apprentissage étiqueté manuellement en utilisant un jeu de 52 étiquettes de nature morpho-syntaxique. Ensuite on procède à une amélioration du système grâce à la procédure de réestimation des paramètres de ce modèle.

Abstract : The tagging of texts is a very important tool for various applications of natural language processing : morphological and syntactic analysis of texts, indexation and information retrieval, vowelling of arabic texts, probabilistic language model (n-class model). In this paper we have used the Hidden Markov Model (HMM) to tag the arabic texts. This system of tagging is used to build a large labelled arabic corpus. The experiments are carried in the set of the labelled texts and the 52 tags of morpho-syntactic nature, in order to estimate the parameters of the HMM.

Mots clés : Corpus, jeu d’étiquettes, Etiquetage morpho-syntaxique, texte arabe, modèle de Markov caché

Keywords : Corpus, the set of tags, the morpho-syntactic tagging, arabic text, Hidden Markov Model