talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers l’intégration du contexte dans une mémoire de traduction sous-phrastique : détection du domaine de traduction

Fabrizio Gotti, Philippe Langlais, Claude Coulombe

Résumé : Nous présentons dans cet article une mémoire de traduction sous-phrastique sensible au domaine de traduction, une première étape vers l’intégration du contexte. Ce système est en mesure de recycler les traductions déjà « vues » par la mémoire, non seulement pour des phrases complètes, mais également pour des sous-séquences contiguës de ces phrases, via un aligneur de mots. Les séquences jugées intéressantes sont proposées au traducteur. Nous expliquons également la création d’un utilisateur artificiel, indispensable pour tester les performances du système en l’absence d’intervention humaine. Nous le testons lors de la traduction d’un ensemble disparate de corpus. Ces performances sont exprimées par un ensemble de métriques que nous définissons. Enfin, nous démontrons que la détection automatique du contexte de traduction peut s’avérer bénéfique et prometteuse pour améliorer le fonctionnement d’une telle mémoire, en agissant comme un filtre sur le matériel cible suggéré.

Abstract : In this article, we present a sub-sentential translation memory sensitive to the translation topic, a first step towards a full-fledged context-sensitive memory. This system is able to recycle previous translations indexed into the memory, not only for full sentences, but also for contiguous subsegments of these sentences, through word alignment information. Interesting segments are proposed to the translator. We also describe the creation of an artificial user (a simulator), necessary to test the system performances when no human intervention is possible, as is the case for these experiments. We test it when translating a set of disparate bilingual corpora. These performances are reflected in different metrics which we define. Finally, we show that a first attempt to automatically detect the translation context can be beneficial and promises to improve such a memory, by acting as a filter on the target material proposed to the user.

Mots clés : traduction assistée par ordinateur, mémoire de traduction sous-phrastique, récupération sensible au contexte, détection du domaine de traduction

Keywords : computer assisted machine translation, sub-sentential translation memory, context-sensitive retrieval, translation topic detection