talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Un corpus d’erreurs de traduction

Guillaume Wisniewski, Anil Kumar Singh, Natalia Segal, François Yvon

Résumé : Avec le développement de la post-édition, de plus en plus de corpus contenant des corrections de traductions sont disponibles. Ce travail présente un corpus de corrections d’erreurs de traduction collecté dans le cadre du projet ANR/TRACE et illustre les différents types d’analyses auxquels il peut servir. Nous nous intéresserons notamment à la détection des erreurs fréquentes et à l’analyse de la variabilité des post-éditions.

Abstract : More and more datasets of post-edited translations are being collected. These corpora have many applications, such as failure analysis of SMT systems and the development of quality estimation systems for SMT. This work presents a large corpus of post-edited translations that has been gathered during the ANR/TRACE project. Applications to the detection of frequent errors and to the analysis of the inter-rater agreement of hTER are also reported.

Mots clés : Traduction automatique, Analyse d’erreur, Post-édiition

Keywords : Machine Translation, Failure Analysis, Post-edition