@inproceedings{Jaud-Hamdi-Doucet-Jatowt-Coustaty:CORIA-TALN-2026:2026,
    author = "Jaud, Alexandre and Hamdi, Ahmed and Doucet, Antoine and Jatowt, Adam and Coustaty, Mickael",
    title = "Au-del\`a du CER et du WER : l'impact r\'eel de l'OCR sur la recherche d'information",
    booktitle = "Actes de CORIA-TALN 2026. Actes de la 21e Conf\'erence en Recherche d'Information et Applications.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "98-110",
    note = "",
    abstract = "La num\'erisation massive de documents repose sur l{\textquoteright}OCR pour rendre le contenu des documents accessible, mais les erreurs de reconnaissance, notamment sur les documents d\'egrad\'es, impactent, entre autres, la t\^ache de recherche d{\textquoteright}information. Les m\'etriques classiques (CER, WER) traitent toutes les erreurs de fa\c{c}on identique, ignorant l{\textquoteright}importance des entit\'es nomm\'ees. Cet article analyse l{\textquoteright}impact des erreurs d{\textquoteright}OCR sur les performances de la reconnaissance d{\textquoteright}entit\'es nomm\'ees et par cons\'equent sur la recherche d{\textquoteright}information. Via un cadre d{\textquoteright}\'evaluation simulant divers types de corruption du texte, nous montrons qu{\textquoteright}alt\'erer m\^eme l\'eg\`erement les entit\'es nomm\'ees d\'egrade significativement les performances de recherche. Ces r\'esultats appellent \`a une \'evaluation de l{\textquoteright}OCR prenant en compte l{\textquoteright}importance de certains termes. Nous proposons des strat\'egies pratiques : correction s\'elective des termes critiques, indexation pond\'er\'ee par confiance, et mod\`eles pr\'eservant l{\textquoteright}int\'egrit\'e des entit\'es, pour des syst\`emes de recherche plus robustes vis \`a vis de corpus bruit\'es.",
    keywords = "Recherche d'information, analyse de documents, reconnaissance optique de caract\`eres, taux d'erreurs, m\'etriques",
    url = "30014.pdf"
}
