talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Traitement des Mots Hors Vocabulaire pour la Traduction Automatique de Document OCRisés en Arabe

Kamel Bouzidi, Zied Elloumi, Laurent Besacier, Benjamin Lecouteux, Mohamed-Faouzi Benzeghiba

Résumé : Cet article présente un système original de traduction de documents numérisés en arabe. Deux modules sont cascadés : un système de reconnaissance optique de caractères (OCR) en arabe et un système de traduction automatique (TA) arabe-français. Le couplage OCR-TA a été peu abordé dans la littérature et l'originalité de cette étude consiste à proposer un couplage étroit entre OCR et TA ainsi qu'un traitement spécifique des mots hors vocabulaire (MHV) engendrés par les erreurs d'OCRisation. Le couplage OCR-TA par treillis et notre traitement des MHV par remplacement selon une mesure composite qui prend en compte forme de surface et contexte du mot, permettent une amélioration significative des performances de traduction. Les expérimentations sont réalisés sur un corpus de journaux numérisés en arabe et permettent d'obtenir des améliorations en score BLEU de 3,73 et 5,5 sur les corpus de développement et de test respectivement.

Mots clés : Traitement Automatique des Langues Naturelles, Traduction Automatique Probabiliste, Mots Hors Vocabulaire, Graphes de Mots, Plongements de Mots, Reconnaissance Optique de Caractères.