@inproceedings{Kobeissi-Langlais:CORIA-TALN-2026:2026,
    author = "Kobeissi, Amine and Langlais, Philippe",
    title = "\'Evaluer la r\'ecup\'eration dans les syst\`emes RAG pour la question-r\'eponse financi\`ere sur longs documents",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "259-272",
    note = "",
    abstract = "La g\'en\'eration augment\'ee par r\'ecup\'eration (RAG) est de plus en plus utilis\'ee pour le question-r\'eponse financier sur de longs documents financiers, mais sa fiabilit\'e d\'epend de la capacit\'e \`a r\'ecup\'erer pr\'ecis\'ement le contexte justifiant la r\'eponse. Nous \'etudions un mode d{\textquoteright}\'echec fr\'equent o\`u le bon document est trouv\'e, mais la page ou le segment contenant l{\textquoteright}information est manqu\'e, poussant le g\'en\'erateur \`a extrapoler \`a partir d{\textquoteright}un contexte incomplet. Nous \'evaluons la r\'ecup\'eration \`a plusieurs granularit\'es (document, page, segment) et proposons une analyse par oracles fournissant des bornes sup\'erieures empiriques sur la r\'ecup\'eration et la g\'en\'eration. Sur 150 questions de FinanceBench, nous comparons des strat\'egies denses, clairsem\'ees, hybrides et hi\'erarchiques, avec reformulation de requ\^etes et reranking. Enfin, nous introduisons un scoreur de pages adapt\'e au domaine, entra{\^\i}n\'e pour la pertinence au niveau page, qui am\'eliore le rappel des pages et la qualit\'e des segments r\'ecup\'er\'es.",
    keywords = "G\'en\'eration augment\'ee par la recherche, Traitement automatique des langues, Recherche d{\textquoteright}information, Question-r\'eponse financi\`ere, Grands mod\`eles de langage",
    url = "14.pdf"
}
