talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Alignement bi-textuel adaptatif basé sur des plongements multilingues

Olivier Kraif

Résumé : Nous présentons dans cet article un système d'alignement bi-textuel adaptatif nommé AIlign. Cet aligneur s'appuie sur les embeddings de phrases pour extraire des points d'ancrage fiables susceptibles de guider le chemin d'alignement, même pour des textes dont le parallélisme est fragmentaire et non strictement monotone. Dans une expérimentation sur plusieurs jeux de données, nous montrons qu'AIlign obtient des résultats équivalents à l'état de l'art, avec une complexité quasi linéaire. En outre, AIlign est capable de traiter des textes dont les propriétés de parallélisme et de monotonie ne sont satisfaites que localement, contrairement à des systèmes tels que Vecalign ou Bertalign.

Mots clés : alignement bi-textuel, corpus parallèle, plongement de phrases