Alignement sous-phrastique hiérarchique avec Anymalign

Adrien Lardilleux, François Yvon, Yves Lepage

Résumé : Nous présentons un algorithme d’alignement sous-phrastique permettant d’aligner très facilement un couple de phrases à partir d’une matrice d’alignement pré-remplie. Cet algorithme s’inspire de travaux antérieurs sur l’alignement par segmentation binaire récursive ainsi que de travaux sur le clustering de documents. Nous évaluons les alignements produits sur des tâches de traduction automatique et montrons qu’il est possible d’atteindre des résultats du niveau de l’état de l’art, affichant des gains très conséquents allant jusqu’à plus de 4 points BLEU par rapport à nos travaux antérieurs, à l’aide une méthode très simple, indépendante de la taille du corpus à traiter, et produisant directement des alignements symétriques. En utilisant cette méthode en tant qu’extension à l’outil d’extraction de traductions Anymalign, nos expériences nous permettent de cerner certaines limitations de ce dernier et de définir des pistes pour son amélioration.

Abstract : We present a sub-sentential alignment algorithm that aligns sentence pairs from an existing alignment matrix in a very easy way. This algorithm is inspired by previous work on alignment by recursive binary segmentation and on document clustering. We evaluate the alignments produced on machine translation tasks and show that we can obtain state-of-the-art results, with gains up to more than 4 BLEU points compared to our previous work, with a method that is very simple, independent of the size of the corpus to be aligned, and can directly produce symmetric alignments. When using this method as an extension of the translation extraction tool Anymalign, our experiments allow us to determine some of its limitations and to define possible leads for further improvements.

Mots clés : corpus parallèle, alignement sous-phrastique, traduction automatique statistique

Keywords : parallel corpus, sub-sentential alignment, statistical machine translation

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Alignement sous-phrastique hiérarchique avec Anymalign

Adrien Lardilleux, François Yvon, Yves Lepage