talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

La distance intertextuelle pour la classification de textes en langue arabe

Rami Ayadi, Walid Jaoudi

Résumé : Nos travaux de recherche s’intéressent à l’application de la théorie de la distance intertextuelle sur la langue arabe en tant qu’outil pour la classification de textes. Cette théorie traite de la classification de textes selon des critères de statistique lexicale, se basant sur la notion de connexion lexicale. Notre objectif est d’intégrer cette théorie en tant qu’outil de classification de textes en langue arabe. Ceci nécessite l’intégration d’une métrique pour la classification de textes au niveau d’une base de corpus lemmatisés étiquetés et identifiés comme étant des références d’époques, de genre, de thèmes littéraires et d’auteurs et ceci afin de permettre la classification de textes anonymes.

Abstract : Our researche works are interested in the application of the intertextual distance theory on the Arabic language as a tool for the classification of texts. This theory handles the classification of texts according to criteria of lexical statistics, and it is based on the lexical connection approach. Our objective is to integrate this theory as a tool of classification of texts in Arabic language. It requires the integration of a metrics for the classification of texts using a database of lemmatized and identified corpus which can be considered as a literature reference for times, genres, literary themes and authors and this in order to permit the classification of anonymous texts.

Mots clés : Distance intertextuelle, arabe, classification, lemmatisation, corpus, statistique lexicale

Keywords : Intertextual distance, Arabic, classification, lemmatization, corpus, lexical statistics