ACL-rlg : Un dataset pour la génération de listes de lecture
Julien Aubert-Béduchaud, Florian Boudin, Béatrice Daille, Richard Dufour
Résumé : Se familiariser avec un nouveau domaine scientifique et sa littérature associée peut s'avérer complexe en raison du nombre considérable d'articles disponibles. Les listes de références académiques compilées par des experts, également appelées listes de lecture, offrent un moyen structuré et efficace d'acquérir une vue d'ensemble approfondie d'un domaine scientifique. Dans cet article, nous présentonsACL-rlg , le plus grand ensemble de données ouvertes rassemblant des listes de lecture annotées par des experts. Nous proposons également plusieurs bases de référence pour évaluer la génération de listes de lecture, que nous formalisons comme une tâche de récupération d'information. Notre étude qualitative met en évidence les performances limitées des moteurs de recherche académiques traditionnels et des méthodes d'indexation dans ce contexte, tandis que GPT-4o, bien que produisant de meilleurs résultats, présente des signes potentiels de contamination des données.
Mots clés : listes de lecture, jeu de données, recherche d'information, recommandation d'articles, contamination des données.