talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Construction d’un corpus parallèle français-comorien en utilisant de la TA français-swahili

Moneim Abdourahamane, Christian Boitet, Valérie Bellynck, Lingxiao Wang, Hervé Blanchon

Résumé : Le comorien ou shikomori est une macro-langue constituée de 4 dialectes (ngazidja, maore, mwali, ndzuani) très proches entre eux, et assez proches du swahili. Il est très peu doté au niveau des ressources linguistiques informatisées, n’ayant ni corpus, ni dictionnaires, ni outils de correction ou de traduction. Il n’est donc a priori pas possible de construire efficacement un corpus parallèle, comme on sait le faire par TA suivie de post-édition (PE) interactive : en français-chinois, 17 mn/page avec Google Translate (GT), 12 mn/page avec le système de TA MosesLIG.fr-zh en utilisant SECTra/iMAG. Nous sommes cependant en train d’y arriver en post-éditant des pré-traductions en swahili produites par GT. Le swahili est utilisé ici non comme langue pivot, mais comme langue cible auxiliaire. Nous avons maintenant un corpus de bonne qualité français-ngazidja formé de 34 articles du journal Alwatwan (899 segments, 16224 mots, 65 pages standard). Nous extrayons en parallèle des correspondances lexicales bilingues. La première application sera la lecture active du français pour des locuteurs du comorien ; elle utilisera le dictionnaire et le système de TA dérivés respectivement de la base lexicale et du corpus, en croissance.

Mots clés : construction de corpus parallèle, français-comorien, swahili, langue auxiliaire