@inproceedings{Djemmal-Oloruntobi-Paul-Gerdes:CORIA-TALN-2026:2026,
    author = "Djemmal, Younes and Oloruntobi Paul, Olutola and Gerdes, Kim",
    title = "Au-del\`a des r\'esum\'es : Apprentissage des repr\'esentations d'articles scientifiques \`a partir de fen\^etres de texte int\'egral",
    booktitle = "Actes de CORIA-TALN 2026. Actes de l'atelier Analyse et Recherche de Textes Scientifiques (ARTS)@TALN 2026",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "31-50",
    note = "",
    abstract = "Les plongements d{\textquoteright}articles scientifiques sont g\'en\'eralement entra{\^\i}n\'es uniquement sur le titre et le r\'esum\'e. Nous pr\'esentons S2Full, un corpus d{\textquoteright}entra{\^\i}nement de 2,52 millions d{\textquoteright}articles en texte int\'egral avec liens de citation, et entra{\^\i}nons sur des fen\^etres al\'eatoires du corps avec un objectif d{\textquoteright}auto-alignement. Sur un benchmark de recherche d{\textquoteright}articles fond\'e sur les citations, notre approche pr\'esente de bonnes performances lors de la recherche d{\textquoteright}articles en utilisant uniquement les titres et r\'esum\'es, tout en am\'eliorant les r\'esultats lorsque les requ\^etes incluent du contenu issu du corps principal des articles. Les meilleurs scores observ\'es proviennent d{\textquoteright}un mod\`ele ModernBERT, tandis que la comparaison SciBERT pleinement entra{\^\i}n\'ee montre d\'ej\`a le m\^eme effet directionnel. L{\textquoteright}entra{\^\i}nement sur le texte int\'egral am\'eliore ainsi la recherche citationnelle \`a partir de formulations plus vari\'ees du contenu d{\textquoteright}un article, au-del\`a de son r\'esum\'e.",
    keywords = "plongements d'articles, texte int\'egral, fen\^etres al\'eatoires, recherche d'information scientifique, SBERT",
    url = "9.pdf"
}
