talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Recherche d'information en langue arabe : influence des paramètres linguistiques et de pondération en LSA

Siham Boulaknadel, Fadoua Ataa-Allah

Résumé : Nous nous intéressons à la recherche d’information en langue arabe en utilisant le modèle de l’analyse sémantique latente (LSA). Nous proposons dans cet article de montrer que le traitement linguistique et la pondération des unités lexicales influent sur la performance de la LSA pour quatre cas d’études : le premier avec un simple prétraitement des corpus; le deuxième en utilisant un anti-dictionnaire; le troisième avec un racineur de l’arabe ; le quatrième où nous avons combiné l’anti-dictionnaire et le racineur. Globalement les résultats de nos expérimentations montrent que les traitements linguistiques ainsi que la pondération des unités lexicales utilisés améliorent la performance de LSA.

Abstract : We are interested in information retrieval in Arabic language by using latent semantic analysis method (LSA). We propose in this article to show that the linguistic treatment and weighting of lexemes influence the performance of LSA. Four cases are studied: the first with a simple pretreatment of the corpora; the second by using a stopword list; the third with arabic stemmer; the fourth where we combined stopword list and arabic stemmer. Broadly the results of our experiments show that the linguistic treatments as well as weighting of lexemes used improve the performance of LSA.

Mots clés : Recherche d’information, Analyse de la sémantique latente, Langue arabe, Racinisation

Keywords : Information retrieval, Latent semantic analyses, Arabic language, Stemming