talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

RésumeSVD : Un outil efficace et performant pour le résumé de texte non supervisé

Gabriel Shenouda, Christophe Rodrigues, Aurélien Bossard

Résumé : Cet article présente une nouvelle méthode, RésumeSVD, pour le résumé automatique extractif non supervisé. Cette méthode est fondée sur la décomposition en valeurs singulières afin de réduire la dimensionnalité des plongements de mots et de proposer une représentation de ces derniers sur un petit nombre de dimensions, chacune représentant un sujet latent. En effet, dans un contexte spécifique et restreint, de multiples dimensions des plongements de mots deviennent moins pertinentes puisqu’apprises dans des contextes plus larges. Elle utilise également le regroupement automatique de mots pour réduire la taille du vocabulaire, et est suivie d’une heuristique d’extraction de phrases. La méthode surpasse en efficacité les approches extractives les plus récentes tout en étant plus efficiente. De plus, RésumeSVD nécessite peu de ressources, en termes de données et de puissance de calcul. Elle peut donc être exécutée sur de longs documents, tels que des articles scientifiques, ainsi que sur de grands corpus à documents multiples. Notre méthode est suffisamment rapide pour être utilisée dans des systèmes de résumé en direct. Nous partageons publiquement le code source de notre approche permettant de reproduire tous nos résultats.

Mots clés : résumé automatique de documents, plongement de mots, réduction de dimension.