talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Détection et correction automatique d’entités nommées dans des corpus OCRisés

Benoît Sagot, Kata Gábor

Résumé : La correction de données textuelles obtenues par reconnaissance optique de caractères (OCR) pour atteindre une qualité éditoriale reste aujourd’hui une tâche coûteuse, car elle implique toujours une intervention humaine. La détection et la correction automatiques d’erreurs à l’aide de modèles statistiques ne permettent de traiter de façon utile que les erreurs relevant de la langue générale. C’est pourtant dans certaines entités nommées que résident les erreurs les plus nombreuses, surtout dans des données telles que des corpus de brevets ou des textes juridiques. Dans cet article, nous proposons une architecture d’identification et de correction par règles d’un large éventail d’entités nommées (non compris les noms propres). Nous montrons que notre architecture permet d’atteindre un bon rappel et une excellente précision en correction, ce qui permet de traiter des fautes difficiles à traiter par les approches statistiques usuelles.

Abstract : Correction of textual data obtained by optical character recognition (OCR) for reaching editorial quality is an expensive task, as it still involves human intervention. The coverage of statistical models for automated error detection and correction is inherently limited to errors that resort to general language. However, a large amount of errors reside in domain-specific named entities, especially when dealing with data such as patent corpora or legal texts. In this paper, we propose a rule-based architecture for the identification and correction of a wide range of named entities (proper names not included). We show that our architecture achieves a good recall and an excellent correction accuracy on error types that are difficult to adress with statistical approaches.

Mots clés : OCR, Entités nommées, Détection d’erreurs, Correction d’erreurs

Keywords : OCR, Named entities, Error Detection, Error Correction