Au-delà du CER et du WER : l'impact réel de l'OCR sur la recherche d'information
Alexandre Jaud, Ahmed Hamdi, Antoine Doucet, Adam Jatowt, Mickael Coustaty
Résumé : La numérisation massive de documents repose sur l’OCR pour rendre le contenu des documents accessible, mais les erreurs de reconnaissance, notamment sur les documents dégradés, impactent, entre autres, la tâche de recherche d’information. Les métriques classiques (CER, WER) traitent toutes les erreurs de façon identique, ignorant l’importance des entités nommées. Cet article analyse l’impact des erreurs d’OCR sur les performances de la reconnaissance d’entités nommées et par conséquent sur la recherche d’information. Via un cadre d’évaluation simulant divers types de corruption du texte, nous montrons qu’altérer même légèrement les entités nommées dégrade significativement les performances de recherche. Ces résultats appellent à une évaluation de l’OCR prenant en compte l’importance de certains termes. Nous proposons des stratégies pratiques : correction sélective des termes critiques, indexation pondérée par confiance, et modèles préservant l’intégrité des entités, pour des systèmes de recherche plus robustes vis à vis de corpus bruités.
Mots clés : Recherche d'information, analyse de documents, reconnaissance optique de caractères, taux d'erreurs, métriques