Multialignement vs bialignement : à plusieurs, c'est mieux !
Olivier Kraif
Résumé : Dans cet article, nous proposons une méthode originale destinée à effectuer l'alignement d'un corpus multiparallèle, i.e. comportant plus de deux langues, en prenant en compte toutes les langues simultanément (et non en composant une série de bialignements indépendants). Pour ce faire, nous nous appuyons sur les réseaux de correspondances lexicales constitués par les transfuges (chaînes identiques) et cognats (mots apparentés), et nous montrons comment divers tuilages des couples de langues permettent d'exploiter au mieux les ressemblances superficielles liées aux relations génétiques interlinguistiques. Nous évaluons notre méthode par rapport à une méthode de bialignement classique, et montrons en quoi le multialignement permet d'obtenir des résultats à la fois plus précis et plus robustes.
Abstract : In this paper, we propose an original method for performing the alignment of a multiparallel corpus, ie a parallel corpus involving more than two languages, taking into account all the languages simultaneously (and not by merging a series of independent bialignments). To do this, we rely on the networks of lexical correspondences formed by identical chains and cognates (related words, and we show how various tiling of language pairs allow to exploit the surface similarities due to genetic relationships between languages. We evaluate our method compared to a conventional method of bialignment, and show how the multialignement achieves both more accurate and robust results.
Mots clés : Alignement multilingue, corpus parallèles, cognats
Keywords : Multilingual alignment, parallel corpora, cognates