talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Le rôle du contexte dans la classification séquentielle de phrases pour les documents longs

Anas Belfathi, Nicolas Hernandez, Laura Monceaux, Richard Dufour

Résumé : La classification séquentielle de phrases étend la classification traditionnelle en intégrant un contexte plus large. Cependant, les approches de pointe rencontrent deux défis majeurs dans le traitement automatique des documents longs : les modèles de langue préentraînés sont limités par des contraintes de longueur d'entrée, tandis que les modèles hiérarchiques proposés introduisent souvent du contenu non pertinent. Nous proposons une approche de recherche d'information au niveau du document visant à extraire uniquement le contexte le plus pertinent. Nous introduisons deux types d'heuristiques : Séquentiel , qui capture l'information locale, et Sélectif, qui sélectionne les phrases les plus sémantiquement similaires. Nos expériences sur trois corpus juridiques en anglais montrent que ces heuristiques améliorent les performances. Les heuristiques séquentielles surpassent les modèles hiérarchiques sur deux des trois jeux de données. démontrant l'apport du contexte ciblé.

Mots clés : Extraction d'information, classification séquentielle de phrases, documents longs, modèles de langue préentraînés.