talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Système de traduction automatique statistique combinant différentes ressources

Fatiha Sadat, George Foster, Roland Kuhn

Résumé : Cet article décrit une approche combinant différents modèles statistiques pour la traduction automatique basée sur les segments. Pour ce faire, différentes ressources sont utilisées, dont deux corpus parallèles aux caractéristiques différentes et un dictionnaire de terminologie bilingue et ce, afin d’améliorer la performance quantitative et qualitative du système de traduction. Nous évaluons notre approche sur la paire de langues français-anglais et montrons comment la combinaison des ressources proposées améliore de façon significative les résultats.

Abstract : This paper describes an approach combining different statistical models for phrase-based machine translation. Different knowledge resources are used, such as two parallel corpora with different characteristics and a bilingual dictionary of terminology, in order to improve the qualitative and quantitative performance of the translation system. We evaluate our approach on the French-English language pair and show how combining the proposed resources significantly improves results.

Mots clés : traduction automatique statistique basée sur les segments, corpus parallèle, dictionnaire de terminologie bilingue

Keywords : statistical phrase-based machine translation, parallel corpora, bilingual dictionary of terminology