@inproceedings{Okabe-Fraser:CORIA-TALN-2026:2026,
    author = "Okabe, Shu and Fraser, Alexander",
    title = "Vers une fouille de phrases parall\`eles pour les langues r\'egionales de France m\'etropolitaine",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 33\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles.  Volume 1 : articles scientifiques originaux",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "688-701",
    note = "",
    abstract = "La fouille de phrases parall\`eles vise \`a extraire des paires de traduction \`a partir de corpus monolingues. Si des paires de langues relativement bien dot\'ees ont d\'ej\`a \'et\'e \'etudi\'ees par le pass\'e, cet article a pour objectif d'\'etendre cette t\^ache, dans un premier temps, \`a six langues r\'egionales de France m\'etropolitaine, appari\'ees au fran\c{c}ais : le breton, le corse, le basque, l'alsacien, l'occitan et le picard.
Afin de pouvoir \'evaluer la qualit\'e des outils de fouille, nous g\'en\'erons des corpus synth\'etiques en introduisant des phrases parall\`eles dans des corpus monolingues.
Nos exp\'eriences sugg\`erent que les quatre mod\`eles de langue consid\'er\'es repr\'esentent ces langues de mani\`ere variable, refl\'etant le niveau de ressources num\'eriques disponibles et la proximit\'e linguistique avec les langues de pr\'e-entra{\^\i}nement. Nous avons \'egalement \'etudi\'e deux types d'approches pour am\'eliorer l'alignement multilingue qui ne requi\`erent aucune phrase parall\`ele incluant les six langues \'etudi\'ees.",
    keywords = "Fouille de phrases parall\`eles, langues r\'egionales de France, repr\'esentation de phrases, langues peu dot\'ees",
    url = "84.pdf"
}
