Un corpus d’erreurs de traduction
Guillaume Wisniewski, Anil Kumar Singh, Natalia Segal, François Yvon
Résumé : Avec le développement de la post-édition, de plus en plus de corpus contenant des corrections de traductions sont disponibles. Ce travail présente un corpus de corrections d’erreurs de traduction collecté dans le cadre du projet ANR/TRACE et illustre les différents types d’analyses auxquels il peut servir. Nous nous intéresserons notamment à la détection des erreurs fréquentes et à l’analyse de la variabilité des post-éditions.
Abstract : More and more datasets of post-edited translations are being collected. These corpora have many applications, such as failure analysis of SMT systems and the development of quality estimation systems for SMT. This work presents a large corpus of post-edited translations that has been gathered during the ANR/TRACE project. Applications to the detection of frequent errors and to the analysis of the inter-rater agreement of hTER are also reported.
Mots clés : Traduction automatique, Analyse d’erreur, Post-édiition
Keywords : Machine Translation, Failure Analysis, Post-edition