@inproceedings{Abdourahamane-Boitet-Bellynck-Wang-Blanchon:TALAF:2016,
    author = "Abdourahamane, Moneim and Boitet, Christian and Bellynck, Val\'erie and Wang, Lingxiao and Blanchon, Herv\'e",
    title = "Construction d'un corpus parall\`ele fran\c{c}ais-comorien en utilisant de la TA fran\c{c}ais-swahili",
    booktitle = "Actes de la conf\'erence conjointe JEP-TALN-RECITAL 2016. Volume 11 : TALAF",
    month = "7",
    year = "2016",
    address = "Paris, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "30-40",
    note = "Building a French-Comorian parallel corpus using French-Swahili MT Comorian or shikomori is a macro-language made of 4 dialects very near one to another (ngazidja, maore, mweli, ndzuani), and quite near to swahili",
    abstract = "Le comorien ou shikomori est une macro-langue constitu\'ee de 4 dialectes (ngazidja, maore, mwali, ndzuani) tr\`es proches entre eux, et assez proches du swahili. Il est tr\`es peu dot\'e au niveau des ressources linguistiques informatis\'ees, n'ayant ni corpus, ni dictionnaires, ni outils de correction ou de traduction. Il n'est donc a priori pas possible de construire efficacement un corpus parall\`ele, comme on sait le faire par TA suivie de post-\'edition (PE) interactive : en fran\c{c}ais-chinois, 17 mn/page avec Google Translate (GT), 12 mn/page avec le syst\`eme de TA MosesLIG.fr-zh en utilisant SECTra/iMAG. Nous sommes cependant en train d'y arriver en post-\'editant des pr\'e-traductions en swahili produites par GT. Le swahili est utilis\'e ici non comme langue pivot, mais comme langue cible auxiliaire. Nous avons maintenant un corpus de bonne qualit\'e fran\c{c}ais-ngazidja form\'e de 34 articles du journal Alwatwan (899 segments, 16224 mots, 65 pages standard). Nous extrayons en parall\`ele des correspondances lexicales bilingues. La premi\`ere application sera la lecture active du fran\c{c}ais pour des locuteurs du comorien ; elle utilisera le dictionnaire et le syst\`eme de TA d\'eriv\'es respectivement de la base lexicale et du corpus, en croissance.",
    keywords = "construction de corpus parall\`ele, fran\c{c}ais-comorien, swahili, langue auxiliaire",
    url = "http://talnarchives.atala.org/ateliers/2016/TALAF/4.pdf"
}
