talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

« De nos jours, ce sont les résultats qui comptent » : création et étude diachronique d'un corpus de revendications issues d'articles de TAL

Clémentine Bleuze, Fanny Ducel, Maxime Amblard, Karën Fort

Résumé : Nous constituons un corpus de phrases issues de pré-tirages et d'articles de TAL, publiés en anglais entre 1952 et 2024, dont nous annotons manuellement un échantillon avec des catégories de revendications reflétant leur fonction rhétorique au sein des articles. Nous affinons un modèle SciBERT (Beltagy et al. , 2019) pour prédire les étiquettes restantes, que nous mettons, avec le corpus annoté, à la disposition de la communauté. Nous illustrons l'intérêt du corpus par des analyses exploratoires sur les caractéristiques des revendications relevées, ainsi qu'une étude diachronique de l'évolution de la structure des résumés; ceci est mis en lien avec une réflexion sur la notion d'exagération scientifique. Nous observons une importance croissante des séquences de contexte précédant l'exposé des contributions, lequel est également de plus en plus suivi de séquences de résultats.

Mots clés : zonage argumentatif, revendications, éthique, TAL pour le TAL