Évaluer les tableaux de revue de littérature générés par les LLM : état de l’art et étude préliminaire
Marah Baccari, Florian Boudin, Richard Dufour
Résumé : Cet article dresse un état de l’art des méthodes de génération automatique de tableaux de revue de littérature à l’aide de grands modèles de langue (LLM), ainsi que des approches proposées pour évaluer leur qualité. Les tableaux de synthèse constituent un format privilégié pour structurer et comparer des travaux scientifiques, mais leur génération automatique soulève des défis importants en termes d’exactitude, de cohérence et de complétude. Nous passons en revue les principales approches existantes et les stratégies d’évaluation associées, en mettant en évidence leurs limites, notamment la dépendance à des références de comparaison et l’insuffisance des métriques actuelles pour capturer la qualité globale des tableaux. Enfin, nous proposons des pistes pour une évaluation plus robuste, en introduisant différentes dimensions d’analyse et en explorant des stratégies alternatives. Cet article constitue ainsi une première étape vers l’élaboration d’un cadre d’évaluation plus adapté aux tableaux de revue de littérature générés automatiquement.
Mots clés : Tableaux de revue de littérature, LLM, Evaluation