talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

La La préédition avec des règles peu coûteuses, utile pour la TA statistique des forums ?

Johanna Gerlach, Victoria Porro, Pierrette Bouillon, Sabine Lehmann

Résumé : Cet article s’intéresse à la traduction automatique statistique des forums, dans le cadre du projet européen ACCEPT (« Automated Community Content Editing Portal »). Nous montrons qu’il est possible d’écrire des règles de préédition peu coûteuses sur le plan des ressources linguistiques et applicables sans trop d’effort avec un impact très significatif sur la traduction automatique (TA) statistique, sans avoir à modifier le système de TA. Nous décrivons la méthodologie proposée pour écrire les règles de préédition et les évaluer, ainsi que les résultats obtenus par type de règles.

Abstract : This paper focuses on the statistical machine translation (SMT) of forums within the context of the European Framework ACCEPT («Automated Community Content Editing Portal») project. We demonstrate that it is possible to write lightweight pre-editing rules that require few linguistic resources, are relatively easy to apply and have significant impact on SMT without any changes to the machine translation system. We describe methodologies for rule development and evaluation, and provide results obtained for different rule types.

Mots clés : préédition, langage contrôlé, traduction statistique, forums

Keywords : pre-edition, controlled language, statistical machine translation, forums