Repenser l'évaluation de l'OCR pour l'extraction d'informations dans les documents commerciaux

Ngoc Nhi Nguyen, Ahmed Hamdi, Antoine Doucet, Adam Jatowt, Mickael Coustaty

Résumé : L'usage croissant de l'OCR pour l'analyse de documents commerciaux numérisés favorise l'automatisation, mais introduit de nouveaux défis pour l'extraction d'informations. Malgré de bonnes performances en conditions contrôlées, les systèmes OCR restent imparfaits, et les métriques classiques (CER/WER) ne mesurent pas pleinement l'impact des erreurs sur les tâches en aval, notamment lorsque des tokens critiques pour les tâches concernées sont affectés. Dans cet article, nous étudions la relation entre qualité OCR et performance d'extraction à travers un cadre d'évaluation reposant sur une injection sélective d'erreurs réalistes. Les résultats montrent que les performances d'extraction sont très sensibles aux erreurs ciblant les tokens pertinents, même à faible taux de bruit, et que les métriques standards reflètent mal cet impact. Cela souligne le besoin de protocoles adaptés et de chaînes de traitement robustes pour les conditions réelles.

Mots clés : extraction d'information, analyse de documents, numérisation, reconnaissance optique de caractères, documents commerciaux

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Repenser l'évaluation de l'OCR pour l'extraction d'informations dans les documents commerciaux

Ngoc Nhi Nguyen, Ahmed Hamdi, Antoine Doucet, Adam Jatowt, Mickael Coustaty