Classer, Ne Pas Générer : Classement d'Énoncés pour la Recommendation Explicable
Ben Kabongo, Arthur Satouf, Vincent Guigue
Résumé : Les explications textuelles générées par des LLMs sont de plus en plus utilisées pour justifier les recommandations, mais leur évaluation reste un défi majeur. Nous plaidons pour un changement d’objectif : classer, ne pas générer. Nous formulons la recommandation explicable comme un problème de classement d'énoncés : le système ordonne des énoncés explicatifs candidats extraits d’avis et renvoie les top-$k$ comme explication. Cette approche réduit les hallucinations, permet une analyse factuelle fine et favorise une évaluation standardisée et reproductible via des métriques de classement. Une évaluation fiable exige toutefois des énoncés explicatifs, atomiques et uniques, difficiles à obtenir à partir d’avis bruités. Nous relevons ce défi avec (i) une extraction basée sur des LLMs, et (ii) un clustering sémantique scalable regroupant les paraphrases. Nous introduisons StaR, un benchmark de classement d’énoncés, et évaluons baselines de popularité et modèles de l’état de l’art, révélant des limites fortes de la personnalisation.
Mots clés : Recommandation Explicable, Classement d'Énoncés, Grands Modèles de Langue (LLMs), Extraction d'Énoncés, Clustering Sémantique