talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Améliorer la Traduction Neuronale par Exemple avec des Données Monolingues

Maxime Bouthors, Josep Crego, François Yvon

Résumé : Les systèmes de traduction neuronale augmentée par des exemples (RANMT) utilisent des corpus bilingues dits mémoires de traduction (TM). Pourtant, dans de nombreux cas, des corpus monolingues du domaine d'intérêt dans la langue cible sont disponibles. Nos travaux s'intéressent à l'exploitation de telles ressources, en recherchant les segments pertinents directement dans la langue cible, conditionnellement à une phrase source en requête. À cet effet, nous proposons d'améliorer les systèmes de recherche cross-lingue, en les entraînant à réaliser des association lexicales. Nos expériences avec deux architectures neuronales montrent l'avantage de notre méthode dans un cas contrôlé, conduisant à des performances de traduction qui peuvent surpasser les méthodes basées sur une mémoire de traduction. Enfin, nous évaluons notre méthode dans une configuration réaliste pour laquelle la quantité de données monolingues excède celle des données parallèles. Cette approche résulte en une nette amélioration des performances par rapport à des modèles de base ainsi que des encodeurs pré-entraînés.

Mots clés : traduction neuronale, recherche d'information, recherche cross-lingue, traduction à base d'exemples