talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Du Genre au Continuum : Analyse Ascendante de la Variation Linguistique dans le Corpus NEM.fr

Marina Seghier

Résumé : Les outils de TAL sont sensibles aux variations linguistiques, fait souvent masqué par des évaluations sur corpus homogènes. Ce travail interroge la pertinence des classifications externes traditionnelles (domaines, genres) face aux caractéristiques linguistiques internes pour appréhender la variation textuelle. Nous présentons le corpus varié NEM.fr, annoté en entités nommées et morphosyntaxe. Avec une approche ascendante non supervisée (ACP et classification floue) sur 33 traits linguistiques, nous démontrons que la variation se structure davantage comme un continuum que comme un ensemble de catégories discrètes. Nos résultats révèlent des dimensions et des méta-catégories transversales, inaccessibles aux approches descendantes classiques. Cette étude confirme que des observables intrinsèques offrent une modélisation plus fine et fiable de la variation que les étiquettes externes. À terme, cette méthodologie vise à corréler configurations linguistiques et performances des modèles pour orienter le TAL vers des stratégies d'évaluation et d'adaptation plus robustes.

Mots clés : variation linguistique, conception de corpus, annotation multi-couches, évaluation