talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Using Stemming in Morphological Analysis to Improve Arabic Information Retrieval

Nasredine Semmar, Meriama Laib, Christian Fluhr

Résumé : La recherche d’information consiste à trouver les documents pertinents parmi un ensemble de documents en réponse à une requête de l’utilisateur. Ces documents sont triés par ordre de pertinence. Le but du traitement automatique du langage naturel dans la recherche d’information est de transformer les mots potentiellement ambigus de la requête et des documents en représentations internes non ambiguës sur lesquelles s’effectuera l’appariement. Cette transformation est généralement réalisée à l’aide de plusieurs niveaux d’analyse linguistique (morphologique, syntaxique, etc.). Cet article présente l’analyseur linguistique de l’arabe du moteur de recherche crosslingue du LIC2M. Nous allons nous concentrer sur l’analyseur morphologique et plus particulièrement sur le module de segmentation qui permet de découper les mots agglutinés en proclitiques, formes simples et enclitiques. Nous allons démontrer qu’une bonne segmentation améliore la précision et le rappel du moteur de recherche.

Abstract : Information retrieval (IR) consists in finding all relevant documents for a user query in a collection of documents. These documents are ordered by the probability of being relevant to the user’s query. The highest ranked document is considered to be the most likely relevant document. Natural Language Processing (NLP) for IR aims to transform the potentially ambiguous words of queries and documents into unambiguous internal representations on which matching and retrieval can take place. This transformation is generally achieved by several levels of linguistic analysis, morphological, syntactic and so forth. In this paper, we present the Arabic linguistic analyzer used in the LIC2M cross-lingual search engine. We focus on the morphological analyzer and particularly the clitic stemmer which segments the input words into proclitics, simple forms and enclitics. We demonstrate that stemming improves search engine recall and precision.

Mots clés : analyse morphologique, désambiguïseur morpho-syntaxique, analyse syntaxique, entités nommées, découpage, recherche d’information crosslingue

Keywords : morphological analysis, part-of-speech tagging, syntactic analysis, named entities, stemming, crosslingual information retrieval