@inproceedings{Seghier:CORIA-TALN-2026:2026,
    author = "Seghier, Marina",
    title = "Du Genre au Continuum : Analyse Ascendante de la Variation Linguistique dans le Corpus NEM.fr",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 19e Rencontres Jeunes Chercheurs en RI (RJCRI) et 28\`eme Rencontre des \'Etudiants Chercheurs  en Informatique pour le Traitement Automatique des Langues (RECITAL)",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "2-13",
    note = "",
    abstract = "Les outils de TAL sont sensibles aux variations linguistiques, fait souvent masqu\'e par des \'evaluations sur corpus homog\`enes. Ce travail interroge la pertinence des classifications externes traditionnelles (domaines, genres) face aux caract\'eristiques linguistiques internes pour appr\'ehender la variation textuelle. Nous pr\'esentons le corpus vari\'e NEM.fr, annot\'e en entit\'es nomm\'ees et morphosyntaxe. Avec une approche ascendante non supervis\'ee (ACP et classification floue) sur 33 traits linguistiques, nous d\'emontrons que la variation se structure davantage comme un continuum que comme un ensemble de cat\'egories discr\`etes. Nos r\'esultats r\'ev\`elent des dimensions et des m\'eta-cat\'egories transversales, inaccessibles aux approches descendantes classiques. Cette \'etude confirme que des observables intrins\`eques offrent une mod\'elisation plus fine et fiable de la variation que les \'etiquettes externes. \`A terme, cette m\'ethodologie vise \`a corr\'eler configurations linguistiques et performances des mod\`eles pour orienter le TAL vers des strat\'egies d'\'evaluation et d'adaptation plus robustes.",
    keywords = "variation linguistique, conception de corpus, annotation multi-couches, \'evaluation",
    url = "20015.pdf"
}
