talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Multi­alignement vs bi­alignement : à plusieurs, c'est mieux !

Olivier Kraif

Résumé : Dans cet article, nous proposons une méthode originale destinée à effectuer l'alignement d'un corpus multi­parallèle, i.e. comportant plus de deux langues, en prenant en compte toutes les langues simultanément (et non en composant une série de bi­alignements indépendants). Pour ce faire, nous nous appuyons sur les réseaux de correspondances lexicales constitués par les transfuges (chaînes identiques) et cognats (mots apparentés), et nous montrons comment divers tuilages des couples de langues permettent d'exploiter au mieux les ressemblances superficielles liées aux relations génétiques interlinguistiques. Nous évaluons notre méthode par rapport à une méthode de bi­alignement classique, et montrons en quoi le multi­alignement permet d'obtenir des résultats à la fois plus précis et plus robustes.

Abstract : In this paper, we propose an original method for performing the alignment of a multi­parallel corpus, ie a parallel corpus involving more than two languages, taking into account all the languages simultaneously (and not by merging a series of independent bi­alignments). To do this, we rely on the networks of lexical correspondences formed by identical chains and cognates (related words, and we show how various tiling of language pairs allow to exploit the surface similarities due to genetic relationships between languages. We evaluate our method compared to a conventional method of bi­alignment, and show how the multi­alignement achieves both more accurate and robust results.

Mots clés : Alignement multilingue, corpus parallèles, cognats

Keywords : Multilingual alignment, parallel corpora, cognates