@inproceedings{Jourdan-Aubert-Beduchaud-Chupin-Baccari-Boudin:CORIA-TALN-2026:2026,
    author = "Jourdan, Leane and Aubert-B\'educhaud, Julien and Chupin, Yannis and Baccari, Marah and Boudin, Florian",
    title = "EarlySciRev: Un jeu de donn\'ees sur les r\'evisions scientifiques \`a un stade pr\'ecoce, extraites des traces d{\textquoteright}\'ecriture LaTeX",
    booktitle = "Actes de CORIA-TALN 2026. Actes de l'atelier Analyse et Recherche de Textes Scientifiques (ARTS)@TALN 2026",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "51-62",
    note = "",
    abstract = "La r\'edaction scientifique est un processus it\'eratif qui g\'en\`ere de nombreuses traces de r\'evision, mais les ressources publiquement accessibles ne pr\'esentent g\'en\'eralement que les versions finales ou quasi finales des articles. Cela limite l'\'etude empirique des comportements de r\'evision et l'\'evaluation des grands mod\`eles de langue (LLM) pour la r\'edaction scientifique. Nous pr\'esentons EarlySciRev, un jeu de donn\'ees de r\'evisions de textes scientifiques \`a un stade pr\'ecoce, extraites automatiquement des fichiers source LaTeX d'arXiv. Notre observation cl\'e est que le texte comment\'e en LaTeX conserve souvent des formulations rejet\'ees ou alternatives r\'edig\'ees par les auteurs eux-m\^emes. En alignant les segments comment\'es avec le texte final adjacent, nous extrayons des paires de r\'evisions candidates au niveau du paragraphe et appliquons un filtrage bas\'e sur les LLM pour conserver les r\'evisions r\'eelles. \`A partir de 1,28 million de paires candidates, notre pipeline extrait 578 000 paires de r\'evisions valid\'ees, fond\'ees sur des traces authentiques des premi\`eres \'ebauches. Nous fournissons en outre un benchmark annot\'e par des humains pour la d\'etection des r\'evisions.",
    keywords = "jeu de donn\'ees, r\'evision de texte, articles scientifiques, filtrage par LLM",
    url = "6.pdf"
}
