@inproceedings{Nhi-Nguyen-Hamdi-Doucet-Jatowt-Coustaty:CORIA-TALN-2026:2026,
    author = "Nhi Nguyen, Ngoc and Hamdi, Ahmed and Doucet, Antoine and Jatowt, Adam and Coustaty, Mickael",
    title = "Repenser l'\'evaluation de l'OCR pour l'extraction d'informations dans les documents commerciaux",
    booktitle = "Actes de CORIA-TALN 2026. Actes de la 21e Conf\'erence en Recherche d'Information et Applications.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "151-161",
    note = "",
    abstract = "L'usage croissant de l{\textquoteright}OCR pour l'analyse de documents commerciaux num\'eris\'es favorise l{\textquoteright}automatisation, mais introduit de nouveaux d\'efis pour l{\textquoteright}extraction d{\textquoteright}informations. Malgr\'e de bonnes performances en conditions contr\^ol\'ees, les syst\`emes OCR restent imparfaits, et les m\'etriques classiques (CER/WER) ne mesurent pas pleinement l{\textquoteright}impact des erreurs sur les t\^aches en aval, notamment lorsque des tokens 
critiques pour les t\^aches concern\'ees sont affect\'es.
Dans cet article, nous \'etudions la relation entre qualit\'e OCR et performance d{\textquoteright}extraction \`a travers un cadre d{\textquoteright}\'evaluation reposant sur une injection s\'elective d{\textquoteright}erreurs r\'ealistes. Les r\'esultats montrent que les performances d{\textquoteright}extraction sont tr\`es sensibles aux erreurs ciblant les tokens pertinents, m\^eme \`a faible taux de bruit, et que les m\'etriques standards refl\`etent mal cet impact. Cela souligne le besoin de protocoles adapt\'es et de cha{\^\i}nes de traitement robustes pour les conditions r\'eelles.",
    keywords = "extraction d'information, analyse de documents, num\'erisation, reconnaissance optique de caract\`eres, documents commerciaux",
    url = "30013.pdf"
}