Apprentissage prédictif asymétrique intra-document pour la représentation de documents scientifiques
You Zuo, Éric Villemonte de la Clergerie, Benoît Sagot
Résumé : Nous étudions le pré-entraînement prédictif pour la représentation de documents scientifiques en exploitant la structure discursive des articles. Nous proposons SciJEPA, un cadre sans supervision par citations qui apprend par prédiction asymétrique intra-document : les représentations du titre et du résumé sont utilisées pour prédire les représentations de la section méthodologique, puis les représentations de la section méthodologique pour prédire celles de la conclusion. Des expériences sur RELISH, high-influence citation, SciDocs et cite prediction montrent que l’apprentissage prédictif seul est viable, mais reste inférieur à une baseline contrastive contrôlée utilisant les mêmes paires de sections. L’ajout de la régularisation gaussienne isotrope esquissée (SIGReg) améliore nettement les performances et réduit cet écart. L’effet de la régularisation dépend de la tâche : une SIGReg modérée aide le classement fin, tandis qu’une régularisation plus forte peut affaiblir l’alignement local. Nous montrons également que différentes branches d’encodage soutiennent différents régimes de recherche. Ces résultats positionnent l’apprentissage prédictif intra-document comme un complément prometteur, sans supervision par citations, pour la représentation de documents scientifiques, à condition que la géométrie des plongements soit soigneusement contrôlée.
Mots clés : apprentissage auto-supervisé, architecture prédictive à plongements conjoints (JEPA), représentation de documents