Alignement bi-textuel adaptatif basé sur des plongements multilingues
Olivier Kraif
Résumé : Nous présentons dans cet article un système d'alignement bi-textuel adaptatif nommé AIlign. Cet aligneur s'appuie sur les embeddings de phrases pour extraire des points d'ancrage fiables susceptibles de guider le chemin d'alignement, même pour des textes dont le parallélisme est fragmentaire et non strictement monotone. Dans une expérimentation sur plusieurs jeux de données, nous montrons qu'AIlign obtient des résultats équivalents à l'état de l'art, avec une complexité quasi linéaire. En outre, AIlign est capable de traiter des textes dont les propriétés de parallélisme et de monotonie ne sont satisfaites que localement, contrairement à des systèmes tels que Vecalign ou Bertalign.
Mots clés : alignement bi-textuel, corpus parallèle, plongement de phrases