Frontières floues: une approche distributionnelle du chevauchement des POS dans des treebanks typologiquement divers
Ioana-Madalina Silai
Résumé : Les catégories de parties du discours (POS) sont souvent traitées comme des silos isolés, malgré un continuum syntaxique réel. Si Universal Dependencies (UD) normalise ces étiquettes, cette standardisation masque les chevauchements fonctionnels des langues. Cet article propose une approche distributionnelle quantifiant ces frontières << floues >> en construisant des profils de lexèmes basés sur leurs contextes morphosyntaxiques. Grace à des mesures de pureté et d’entropie, nous identifions les << mots-ponts >> et les traits favorisant ces glissements catégoriels. L’étude contrastée des treebanks français et chinois montre que ce chevauchement provient de contextes distincts : modifieurs verbaux en français versus flexibilité prédicative des adjectifs en chinois. Ce travail fournit un diagnostic quantitatif des biais d’annotation, améliorant l’interprétabilité des modèles UD.
Mots clés : Chevauchement catégoriel, Universal Dependencies, Typologie distributionnelle, Équivalence fonctionnelle