talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Uniformité de la densité informationnelle: le cas du redoublement du sujet

Yiming Liang, Pascal Amsili, Heather Burnett

Résumé : Nous présentons les résultats d'une expérience visant à savoir si la densité d'information (ou de surprise) affecte le redoublement du sujet dans des conversations spontanées. En utilisant la version française de GPT, nous estimons la surprise lexicale du sujet NP étant donné un contexte précédent et vérifions si la surprise du sujet affecte son redoublement. L'analyse de régression à effet mixte montre que, en plus des facteurs qui ont été montrés comme affectant le redoublement du sujet dans la littérature, la prévisibilité du sujet nominal est un prédicteur important du non-redoublement. Les sujets nominaux moins prédictibles tendent à être redoublés par rapport à ceux qui sont plus prédictibles. Notre travail confirme l'intérêt de l'hypothèse de l'Uniformité de la densité informationnelle (UID) pour le français et illustre l'opérationalisation de la densité informationnelle à l'aide de grands modèles neuronaux de langage.

Mots clés : uniformité de la densité informationnelle, redoublement du sujet, surprise, français oral, Transformer Génératif Pré, entraîné (GPT)