talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Au-delà du CER et du WER : l'impact réel de l'OCR sur la recherche d'information

Alexandre Jaud, Ahmed Hamdi, Antoine Doucet, Adam Jatowt, Mickael Coustaty

Résumé : La numérisation massive de documents repose sur l’OCR pour rendre le contenu des documents accessible, mais les erreurs de reconnaissance, notamment sur les documents dégradés, impactent, entre autres, la tâche de recherche d’information. Les métriques classiques (CER, WER) traitent toutes les erreurs de façon identique, ignorant l’importance des entités nommées. Cet article analyse l’impact des erreurs d’OCR sur les performances de la reconnaissance d’entités nommées et par conséquent sur la recherche d’information. Via un cadre d’évaluation simulant divers types de corruption du texte, nous montrons qu’altérer même légèrement les entités nommées dégrade significativement les performances de recherche. Ces résultats appellent à une évaluation de l’OCR prenant en compte l’importance de certains termes. Nous proposons des stratégies pratiques : correction sélective des termes critiques, indexation pondérée par confiance, et modèles préservant l’intégrité des entités, pour des systèmes de recherche plus robustes vis à vis de corpus bruités.

Mots clés : Recherche d'information, analyse de documents, reconnaissance optique de caractères, taux d'erreurs, métriques