Au-delà des résumés : Apprentissage des représentations d'articles scientifiques à partir de fenêtres de texte intégral
Younes Djemmal, Olutola Oloruntobi Paul, Kim Gerdes
Résumé : Les plongements d’articles scientifiques sont généralement entraînés uniquement sur le titre et le résumé. Nous présentons S2Full, un corpus d’entraînement de 2,52 millions d’articles en texte intégral avec liens de citation, et entraînons sur des fenêtres aléatoires du corps avec un objectif d’auto-alignement. Sur un benchmark de recherche d’articles fondé sur les citations, notre approche présente de bonnes performances lors de la recherche d’articles en utilisant uniquement les titres et résumés, tout en améliorant les résultats lorsque les requêtes incluent du contenu issu du corps principal des articles. Les meilleurs scores observés proviennent d’un modèle ModernBERT, tandis que la comparaison SciBERT pleinement entraînée montre déjà le même effet directionnel. L’entraînement sur le texte intégral améliore ainsi la recherche citationnelle à partir de formulations plus variées du contenu d’un article, au-delà de son résumé.
Mots clés : plongements d'articles, texte intégral, fenêtres aléatoires, recherche d'information scientifique, SBERT