talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Construction d’un corpus multilingue annoté en relations de traduction

Yuming Zhai

Résumé : Les relations de traduction, qui distinguent la traduction littérale d’autres procédés, constituent un sujet d’étude important pour les traducteurs humains (Chuquet & Paillard, 1989). Or les traitements automatiques fondés sur des relations entre langues, tels que la traduction automatique ou la méthode de génération de paraphrases par équivalence de traduction, ne les ont pas exploitées explicitement jusqu’à présent. Dans ce travail, nous présentons une catégorisation des relations de traduction et nous les annotons dans un corpus parallèle multilingue (anglais, français, chinois) de présentations orales, les TED Talks. Notre objectif à plus long terme sera d’en faire la détection de manière automatique afin de pouvoir les intégrer comme caractéristiques importantes pour la recherche de segments monolingues en relation d’équivalence (paraphrases) ou d’implication. Le corpus annoté résultant de notre travail sera mis à disposition de la communauté.

Mots clés : relations de traduction, annotation de corpus.