@inproceedings{Karam-Bezancon-Lejeune:CORIA-TALN:2025,
    author = {Karam, Rimane and Bezan\c{c}on, Julien and Lejeune, Ga\"el},
    title = "Lost In Variation : extraction non-supervis\'ee de motifs lexico-syntaxiques dans des textes en moyen arabe",
    booktitle = "Actes de CORIA-TALN-RJCRI-RECITAL 2025. Actes des 32\`eme Conf\'erence sur le Traitement Automatique des Langues Naturelles (TALN),  volume 2 : traductions d'articles publi\'es",
    month = "6",
    year = "2025",
    address = "Marseille, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "37-50",
    note = "",
    abstract = "Contrairement \`a l{\textquoteright}arabe standard moderne ou \`a certains dialectes de l{\textquoteright}arabe, le moyen arabe a peu \'et\'e \'etudi\'e en TAL. Pourtant, cette famille de vari\'et\'es pr\'esente un d\'efi majeur : elle m\^ele des traits de standard et des traits de dialecte en plus de poss\'eder des caract\'eristiques qui lui sont propres. Nous pr\'esentons ici une m\'ethode pour identifier, extraire et classer les variantes de 13 formules du moyen arabe, relev\'ees manuellement. Ces formules proviennent des neuf premiers tomes du corpus SIRAT AL-MALIK AL-ZAHIR BAYBARS, un corpus de litt\'erature populaire r\'edig\'e dans une vari\'et\'e de moyen arabe proche du dialecte damasc\`ene. Nous classons 20 386 s\'equences en se fondant sur leur similarit\'e \`a plusieurs niveaux avec les formules \'etudi\'ees. Ce classement nous permet d{\textquoteright}observer que ces formules varient sur les plans lexical, morphologique et graphique tout en restant strictement invariables s\'emantiquement et syntaxiquement.",
    keywords = "fouille de textes, variation, moyen arabe, similarit\'e, alignement de s\'equences.",
    url = "https://talnarchives.atala.org/TALN/TALN-2025/9.pdf"
}
