@inproceedings{Zuo-Villemonte-de-la-Clergerie-Sagot:CORIA-TALN-2026:2026,
    author = "Zuo, You and Villemonte de la Clergerie, \'Eric and Sagot, Beno{\^\i}t",
    title = "Apprentissage pr\'edictif asym\'etrique intra-document pour la repr\'esentation de documents scientifiques",
    booktitle = "Actes de CORIA-TALN 2026. Actes de l'atelier Analyse et Recherche de Textes Scientifiques (ARTS)@TALN 2026",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "15-30",
    note = "",
    abstract = "Nous \'etudions le pr\'e-entra{\^\i}nement pr\'edictif pour la repr\'esentation de documents scientifiques en exploitant la structure discursive des articles. Nous proposons SciJEPA, un cadre sans supervision par citations qui apprend par pr\'ediction asym\'etrique intra-document : les repr\'esentations du titre et du r\'esum\'e sont utilis\'ees pour pr\'edire les repr\'esentations de la section m\'ethodologique, puis les repr\'esentations de la section m\'ethodologique pour pr\'edire celles de la conclusion. Des exp\'eriences sur RELISH, high-influence citation, SciDocs et cite prediction montrent que l{\textquoteright}apprentissage pr\'edictif seul est viable, mais reste inf\'erieur \`a une baseline contrastive contr\^ol\'ee utilisant les m\^emes paires de sections. L{\textquoteright}ajout de la r\'egularisation gaussienne isotrope esquiss\'ee (SIGReg) am\'eliore nettement les performances et r\'eduit cet \'ecart. L{\textquoteright}effet de la r\'egularisation d\'epend de la t\^ache : une SIGReg mod\'er\'ee aide le classement fin, tandis qu{\textquoteright}une r\'egularisation plus forte peut affaiblir l{\textquoteright}alignement local. Nous montrons \'egalement que diff\'erentes branches d{\textquoteright}encodage soutiennent diff\'erents r\'egimes de recherche. Ces r\'esultats positionnent l{\textquoteright}apprentissage pr\'edictif intra-document comme un compl\'ement prometteur, sans supervision par citations, pour la repr\'esentation de documents scientifiques, \`a condition que la g\'eom\'etrie des plongements soit soigneusement contr\^ol\'ee.",
    keywords = "apprentissage auto-supervis\'e, architecture pr\'edictive \`a plongements conjoints (JEPA), repr\'esentation de documents",
    url = "7.pdf"
}
