talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Apport de la diacritisation dans l’analyse morphosyntaxique de l’arabe

Ahmed Hamdi

Résumé : Ce travail s’inscrit dans le cadre de l’analyse morphologique et syntaxique automatique de la langue arabe. Nous nous intéressons au traitement de la diacritisation et à son apport pour l’analyse morphologique. En effet, la plupart des analyseurs morphologiques et des étiqueteurs morphosyntaxiques existants ignorent les diacritiques présents dans le texte à analyser et commettent des erreurs qui pourraient être évitées. Dans cet article, nous proposons une méthode qui prend en considération les diacritiques lors de l’analyse, et nous montrons que cette prise en compte permet de diminuer considérablement le taux d’erreur de l’analyse morphologique selon le taux de diacritiques du texte traité.

Abstract : This work is concerned with the automatic morphological and syntactical analysis of the Arabic language. It focuses on diacritization and on its contribution to morphological analysis. Most of existing morphological analyzers and syntactical taggers do not take diacritics into account; as a consequence, they make mistakes that could have been avoided. In this paper, we propose a method which process diacritics. We show that doing so reduces considerably the morphological error rate, depending on the diacritics rate in the input text.

Mots clés : diacritisation, traitement automatique, analyse morphosyntaxique, langue arabe

Keywords : diacritization, computer processing, morpho-syntaxic analysis, Arabic language