Transfert de modèles de langue pour la classification rhétorique des citations à travers les disciplines
Anne-Sophie Foussat, Vincent Guigue, Nicolas Sauvion, Robert Bossy, Claire Nédellec
Résumé : La classification automatique des fonctions rhétoriques des citations contribue à l'étude des stratégies discursives d'un auteur lorsqu'il cite, et plus généralement, de son intention. Dans l'objectif d'estimer la fiabilité des découvertes citées en écologie, cet article analyse les capacités de transfert des modèles de langue affinés en linguistique computationnelle pour cette tâche, en les comparant aux méthodes par amorçage (prompting). Nous introduisons PD100cit, un nouveau corpus annoté, ainsi qu'un guide d'annotation, afin d'explorer la typologie rhétorique des citations relatives aux interactions biologiques. Nous explorons également la sensibilité des modèles aux longueurs des contextes des passages de citations. Nos résultats montrent de bonnes performances des modèles de langue transférés en écologie et l'intérêt de réviser la typologie pour évaluer la fiabilité des découvertes de la linguistique computationnelle à l'écologie.
Mots clés : classification de citations, modèle de langue, interactions biologiques