LOCOST: Modèles Espace-État pour le Résumé Abstractif de Documents Longs
Florian Le Bronnec, Song Duong, Alexandre Allauzen, Vincent Guigue, Alberto Lumbreras, Laure Soulier, Patrick Gallinari
Résumé : Les modèles espace-état constituent une alternative peu coûteuse en termes de complexité de calcul aux transformeurs pour le codage de longues séquences et la capture de longues dépendances. Nous proposons LOCOST: une architecture encodeur-décodeur basée sur des modèles espace-état pour la génération de textes conditionnels avec de longues entrées contextuelles. Avec une complexité de calcul de O(L log L), cette architecture peut traiter des séquences beaucoup plus longues que les modèles de référence qui sont basés sur des modèles d'attention parcimonieux. Nous évaluons notre modèle sur une série de tâches de résumé abstractif de longs documents. Le modèle atteint un niveau de performance qui est 93-96% comparable aux transformeurs parcimonieux les plus performants de la même taille tout en économisant jusqu'à 50% de mémoire pendant l'apprentissage et jusqu'à 87% pendant l'inférence. En outre, LOCOST traite efficacement les entrées dépassant 600K tokens au moment de l'inférence, établissant de nouveaux résultats de référence sur le résumé de livre complet et ouvrant de nouvelles perspectives pour le traitement des entrées longues.
Mots clés : modèles espace-état,résumé abstractif de documents longs,traitement du langage naturel