Appariement de trames narratives : dépasser le chevauchement lexical en recherche d'information

Ahmed Hamdi, Emanuela Boros, Jose G Moreno, Antoine Doucet

Résumé : Les modèles de similarité sémantique actuels, bien que performants sur les benchmarks standards, peinent à reconnaître l'équivalence narrative entre textes relatant une même histoire. Pour pallier cette limitation en recherche d'information orientée narration, nous présentons une nouvelle ressource multilingue constituée de résumés de films appariés, extraite automatiquement de Wikipedia. Ce jeu de données permet un apprentissage supervisé à grande échelle de la similarité narrative au-delà du simple chevauchement lexical. Nous l'exploitons pour fine-tuner des modèles d'embeddings via un apprentissage contrastif et évaluons leur performance dans un système de recherche d'information à deux étages (premier appel BM25 suivi d'un re-ranking). Nous comparons les modèles en configuration zero-shot avec leurs versions fine-tunées sur notre ressource, démontrant l'apport de l'appariement narratif cross-lingue pour cette tâche.

Mots clés : recherche d'information, narrative, appariement, résumé de films, ressource

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Appariement de trames narratives : dépasser le chevauchement lexical en recherche d'information

Ahmed Hamdi, Emanuela Boros, Jose G Moreno, Antoine Doucet