talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Résumé Automatique Multilingue Expérimentations sur l’Anglais, l’Arabe et le Français

Houda Oufaida, Omar Nouali, Philippe Blache

Résumé : La tâche du résumé multilingue vise à concevoir des systèmes de résumé très peu dépendants de la langue. L’approche par extraction est au coeur de ces systèmes, elle permet à l’aide de méthodes statistiques de sélectionner les phrases les plus pertinentes dans la limite de la taille du résumé. Dans cet article, nous proposons une approche de résumé multilingue, elle extrait les phrases dont les termes sont des plus discriminants. De plus, nous étudions l'impact des différents traitements linguistiques de base : le découpage en phrases, l'analyse lexicale, le filtrage des mots vides et la racinisation sur la couverture ainsi que la notation des phrases. Nous évaluons les performances de notre approche dans un contexte multilingue : l'anglais, l'arabe et le français en utilisant le jeu de données TAC MultiLing 2011.

Abstract : The task of multilingual summarization aims to design free-from language systems. Extractive methods are in the core of multilingual summarization systems. In this paper, we discuss the influence of various basic NLP tasks: sentence splitting, tokenization, stop words removal and stemming on sentence scoring and summaries' coverage. Hence, we propose a statistical method which extracts most relevant sentences on the basis of their terms discriminant power. We conduct several experimentations in a multilingual context: English, Arabic and French using the TAC MultiLing 2011 dataset.

Mots clés : Résumé multilingue, analyse discriminante, TAL, évaluation multilingue

Keywords : Multilingual summarization, Discriminant analysis, NLP, Multilingual evaluation