EarlySciRev: Un jeu de données sur les révisions scientifiques à un stade précoce, extraites des traces d’écriture LaTeX
Leane Jourdan, Julien Aubert-Béduchaud, Yannis Chupin, Marah Baccari, Florian Boudin
Résumé : La rédaction scientifique est un processus itératif qui génère de nombreuses traces de révision, mais les ressources publiquement accessibles ne présentent généralement que les versions finales ou quasi finales des articles. Cela limite l'étude empirique des comportements de révision et l'évaluation des grands modèles de langue (LLM) pour la rédaction scientifique. Nous présentons EarlySciRev, un jeu de données de révisions de textes scientifiques à un stade précoce, extraites automatiquement des fichiers source LaTeX d'arXiv. Notre observation clé est que le texte commenté en LaTeX conserve souvent des formulations rejetées ou alternatives rédigées par les auteurs eux-mêmes. En alignant les segments commentés avec le texte final adjacent, nous extrayons des paires de révisions candidates au niveau du paragraphe et appliquons un filtrage basé sur les LLM pour conserver les révisions réelles. À partir de 1,28 million de paires candidates, notre pipeline extrait 578 000 paires de révisions validées, fondées sur des traces authentiques des premières ébauches. Nous fournissons en outre un benchmark annoté par des humains pour la détection des révisions.
Mots clés : jeu de données, révision de texte, articles scientifiques, filtrage par LLM