talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Vers une fouille de phrases parallèles pour les langues régionales de France métropolitaine

Shu Okabe, Alexander Fraser

Résumé : La fouille de phrases parallèles vise à extraire des paires de traduction à partir de corpus monolingues. Si des paires de langues relativement bien dotées ont déjà été étudiées par le passé, cet article a pour objectif d'étendre cette tâche, dans un premier temps, à six langues régionales de France métropolitaine, appariées au français : le breton, le corse, le basque, l'alsacien, l'occitan et le picard. Afin de pouvoir évaluer la qualité des outils de fouille, nous générons des corpus synthétiques en introduisant des phrases parallèles dans des corpus monolingues. Nos expériences suggèrent que les quatre modèles de langue considérés représentent ces langues de manière variable, reflétant le niveau de ressources numériques disponibles et la proximité linguistique avec les langues de pré-entraînement. Nous avons également étudié deux types d'approches pour améliorer l'alignement multilingue qui ne requièrent aucune phrase parallèle incluant les six langues étudiées.

Mots clés : Fouille de phrases parallèles, langues régionales de France, représentation de phrases, langues peu dotées