talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Résumé automatique de documents arabes basé sur la technique RST

Mohamed Hédi Maâloul, Iskandar keskes

Résumé : Dans cet article, nous nous intéressons au résumé automatique de textes arabes. Nous commençons par présenter une étude analytique réalisée sur un corpus de travail qui nous a permis de déduire, suite à des observations empiriques, un ensemble de relations et de frames (règles ou patrons) rhétoriques; ensuite nous présentons notre méthode de production de résumés pour les textes arabes. La méthode que nous proposons se base sur la Théorie de la Structure Rhétorique (RST) (Mann et al., 1988) et utilise des connaissances purement linguistiques. Le principe de notre proposition s’appuie sur trois piliers. Le premier pilier est le repérage des relations rhétoriques entres les différentes unités minimales du texte dont l’une possède le statut de noyau – segment de texte primordial pour la cohérence – et l’autre a le statut noyau ou satellite – segment optionnel. Le deuxième pilier est le dressage et la simplification de l’arbre RST. Le troisième pilier est la sélection des phrases noyaux formant le résumé final, qui tiennent en compte le type de relation rhétoriques choisi pour l’extrait.

Abstract : In this paper, we focus on automatic summarization of Arabic texts. We start by presenting an analytical study carried out on a study corpus which enabled us to deduce, following empirical observations, a set of relations and rhetorical frames; then we present our proposed method to produce summaries for Arabic texts. This method is based bases on the Rhetorical Structure Theory (RST) technique (Mann and Al., 1988) and uses purely linguistic knowledge. The principle of the proposed method is based on three pillars. The first pillar is the location of the rhetorical relations between the various minimal units of the text of which one has the status of nucleus - text segment necessary to maintain coherence - and the other has the status of nucleus or satellite - optional segment. The second pillar is the representation and the simplification of RST-tree that is considered most descriptive. The third pillar is the selection of the nucleus sentences forming the final summary, which hold in account the type of rhetorical relations chosen.

Mots clés : Théorie de la Structure Rhétorique, Relations rhétoriques, Marqueurs linguistiques, Résumé automatique de textes arabes

Keywords : Rhetorical Structure Theory, Rhetorical relations, Linguistic markers, Automatic summarization of Arabic texts