@inproceedings{Tanguy:RECITAL:2020,
    author = "Tanguy, Jean-Baptiste",
    title = "Exploiter des mod\`eles de langue pour \'evaluer des sorties de logiciels d'OCR pour des documents fran\c{c}ais du XVIIe si\`ecle",
    booktitle = "Actes de la Conf\'erence sur le Traitement Automatique des Langues Naturelles. Volume 3 : Rencontre des \'Etudiants Chercheurs en Informatique pour le Traitement Automatique des Langues",
    month = "6",
    year = "2020",
    address = "Nancy, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "205-217",
    note = "Language Model Based Evaluation of OCR Software Output Qualities for 17th Century French",
    abstract = "Pour comparer deux sorties de logiciels d'OCR, le Character Error Rate (ou, CER) est fr\'equemment utilis\'e. Moyennant l'existence d'une v\'erit\'e de terrain de qualit\'e pour certains documents du corpus, le CER calcule le taux d'erreur de ces pi\`eces et permet ensuite de s\'electionner le logiciel d'OCR le plus adapt\'e. Toutefois, ces v\'erit\'es de terrain sont tr\`es co\^uteuses \`a produire et peuvent freiner certaines \'etudes, m\^eme prospectives. Nous explorons l'exploitation des mod\`eles de langue en agr\'egeant selon diff\'erentes m\'ethodes les probabilit\'es offertes par ceux-ci pour estimer la qualit\'e d'une sortie d'OCR. L'indice de corr\'elation de Pearson est ici utilis\'e pour comprendre dans quelle mesure ces estimations issues de mod\`eles de langue covarient avec le CER, mesure de r\'ef\'erence.",
    keywords = "OCR, mod\`ele de langue, \'evaluation, document historique, fran\c{c}ais pr\'e-classique.",
    url = "http://talnarchives.atala.org/RECITAL/RECITAL-2020/179.pdf"
}