talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Memory-based-Learning et Base de règles pour un Etiqueteur du Texte Arabe

Yamina Tlili-Guiassa

Résumé : Jusqu’a présent il n’y a pas de système automatique complet pour l’étiquetage du texte arabe. Les méthodes qu’elles soient basées sur des règles explicites ou sur des calculs statistiques, ont été développées pour pallier au problème de l’ambiguïté lexicale. Celles-ci introduisent des informations sur le contexte immédiat des mots, mais font l’impasse sur les exceptions qui échappent aux traitements. L'apparition des méthodes Memory-Based Learning(MBL) a permis l’exploitation automatique de la similarité de l’information contenue dans de grandes masses de textes et , en cas d'anomalie, permet de déduire la catégorie la plus probable dans un contexte donné, sans que le linguiste ait à formuler des règles explicites. Ce papier qui présente une approche hybride combine les méthodes à base de règles et MBL afin d’optimiser la performance de l’étiqueteur. Les résultats ainsi obtenus, présentés en section 6, sont satisfaisants et l’ objectif recherché est atteint.

Abstract : Since now there is no complete automatic system for tagging an Arabian text. Methods based on explicit rules or on statistical calculations, have been developed to palliate problems of lexical ambiguousness. They introduce some information on the immediate context of the words but , make the dead end on the exceptions that escape to treatments. The apparition of the Memory-Based Learning(MBL) methods, that exploit automatically the similarity of information contained in big masses of texts and permit, in case of anomaly, to deduct the likeliest category in a given context, without the linguist has to formulate explicit rules. This paper presents an hybrid approach that combines methods based on rules and MBL, thus, in order to optimize the labeller's performance. Our objective is reached and the gotten results, presented in section 6, are satisfactory.

Mots clés : Etiquetage, Memory-Based Leaning, K-NN, Base de règles, Morphosyntaxique, Langue Arabe

Keywords : Tagging, Memory-based learning, K-NN, Based-rules, Morphosyntaxitic, Arabic language