Exploiter des modèles de langue pour évaluer des sorties de logiciels d’OCR pour des documents français du XVIIe siècle
Jean-Baptiste Tanguy
Résumé : Pour comparer deux sorties de logiciels d’OCR, le Character Error Rate (ou, CER) est fréquemment utilisé. Moyennant l’existence d’une vérité de terrain de qualité pour certains documents du corpus, le CER calcule le taux d’erreur de ces pièces et permet ensuite de sélectionner le logiciel d’OCR le plus adapté. Toutefois, ces vérités de terrain sont très coûteuses à produire et peuvent freiner certaines études, même prospectives. Nous explorons l’exploitation des modèles de langue en agrégeant selon différentes méthodes les probabilités offertes par ceux-ci pour estimer la qualité d’une sortie d’OCR. L’indice de corrélation de Pearson est ici utilisé pour comprendre dans quelle mesure ces estimations issues de modèles de langue covarient avec le CER, mesure de référence.
Mots clés : OCR, modèle de langue, évaluation, document historique, français pré-classique.