talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Approche basée sur les arbres sémantiques pour la désambiguïsation lexicale de la langue arabe en utilisant une procédure de vote

Laroussi Merhbene, Anis Zouaghi, Mounir Zrigui

Résumé : Le problème de désambiguïsation lexicale du sens des mots est l'un des plus vieux problèmes de traitement du langage naturel. Dans cet article, nous proposons une approche semi-supervisé pour la désambiguïsation lexicale des mots arabes. La partie supervisée de notre méthode utilise le corpus et le dictionnaire comme ressources pour classifier les contextes du mot ambigu selon le sens. Le regroupement de ces contextes est représenté sous forme d’arbre sémantique. Par la suite nous allons faire la correspondance entre l’arbre sémantique (de chaque sens) et l’arbre de la phrase à désambiguïser pour obtenir un graphe acyclique pondéré. Nous avons défini une nouvelle mesure de score (en utilisant trois mesures de collocation) pour trouver l’arbre sémantique la plus proche. La partie non supervisé de ce travail est basé sur une procédure de vote permettant de classifier les mesures de collocations et de choisir le sens correct du mot ambigu.

Mots clés : Gloses, Extraction de racines, Correspondance de mots, groupement de contextes, arbre sémantique, mesure de collocation, procédure de vote.