Robustesse des LLM dans les contextes longs, hallucinations et détection sur questions-réponses séquentielles
Aygalic Jara-Mikolajczak, Thomas Lavergne, Christophe Servan, Sophie Rosset
Résumé : Dans ce travail, nous évaluons l'impact de l'allongement du contexte sur le taux d'hallucination et les performances de détection d'hallucinations à travers sept modèles à poids ouverts sur le jeu de données TriviaQA. Nous utilisons des sondes linéaires, une approche efficace pour détecter les hallucinations dans les LLM, mais leur robustesse dans les contextes conversationnels longs reste peu étudiée. Nos résultats montrent que les taux d'hallucination restent stables jusqu'à 400 tours et 75 000 tokens, et que des sondes entraînées sur un tour unique généralisent bien aux contextes multi-tours. En revanche, l'injection de réponses oracles dans le contexte dégrade systématiquement les performances, suggérant que des réponses hors distribution perturbent les représentations internes du modèle.
Mots clés : grands modèles de langage, hallucination, détection d'hallucinations, contexte long, questions-réponses séquentielles, sondes linéaires