talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Dissymétrie entre l'indexation des documents et le traitement des requêtes pour la recherche d’information en langue arabe

Ramzi Abbès, Malek Boualem

Résumé : Les moteurs de recherches sur le web produisent des résultats comparables et assez satisfaisants pour la recherche de documents écrits en caractères latins. Cependant, ils présentent de sérieuses lacunes dès que l'ont s'intéresse à des langues peu dotées ou des langues sémitiques comme l'arabe. Dans cet article nous présentons une étude analytique et qualitative de la recherche d’information en langue arabe en mettant l'accent sur l'insuffisance des outils de recherche actuels, souvent mal adaptés aux spécificités de la langue arabe. Pour argumenter notre analyse, nous présentons des résultats issus d’observations et de tests autour de certains phénomènes linguistiques de l’arabe écrit. Pour la validation des ces observations, nous avons testé essentiellement le moteur de recherche Google.

Abstract : Web search engines provide quite good results for Latin characters-based languages. However, they still show many weaknesses when searching in other languages such as Arabic. This paper discusses a qualitative analysis of information retrieval in Arabic language, highlighting some of the numerous limitations of available search engines, mainly when they are not properly adapted to the Arabic language specificities. To argue our analysis, we present some results based on quite sufficient observations and tests on various Arabic linguistic phenomena. To validate these observations, we essentially have tested the Google search engine.

Mots clés : recherche d’information, langue arabe, indexation, lemmatisation, Google

Keywords : information retrieval, Arabic, indexation, lemmatization, Google