talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étude comparative entre trois approches de résumé automatique de documents arabes

Iskandar Keskes, Mohamed Mahdi Boudabous, Mohamed Hédi Maâloul, Lamia Hadrich Belguith

Résumé : Dans cet article, nous proposons une étude comparative entre trois approches pour le résumé automatique de documents arabes. Ainsi, nous avons proposé trois méthodes pour l’extraction des phrases les plus représentatives d'un document. La première méthode se base sur une approche symbolique, la deuxième repose sur une approche numérique et la troisième se base sur une approche hybride. Ces méthodes sont implémentées respectivement par le système ARSTResume, le système R.I.A et le système HybridResume. Nous présentons, par la suite, les résultats obtenus par les trois systèmes et nous procédons à une étude comparative entre les résultats obtenus afin de souligner les avantages et les limites de chaque méthode. Les résultats de l’évaluation ont montré que l‘approche numérique est plus performante que l’approche symbolique au niveau des textes longs. Mais, l’intégration de ces deux approches en une approche hybride aboutit aux résultats les plus performants dans notre corpus de textes.

Abstract : In this paper, we propose a comparative study between three approaches for automatic summarization of Arabic documents. Thus, we proposed three methods for extracting most representative sentences of a document. The first method is based on a symbolic approach, the second is relied on a numerical approach and the third is based on a hybrid approach. These methods are implemented respectively by the ARSTResume, R.I.A and HybridResume systems. Then, we present the results obtained by the three systems and we conduct a comparative study between the obtained results in order to highlight the advantages and limitations of each method. The evaluation results showed that the numerical approach has better performances than the symbolic approach. But, combining into a hybrid approach achieved the best results for our text corpus.

Mots clés : Résumé automatique, approche symbolique, approche numérique, approche hybride, document arabe

Keywords : Automatic summarization, symbolic approach, numerical approach, hybrid approach, Arabic document