talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Étude des déterminants impactant la qualité de l'information géographique chez les LLMs : famille, taille, langue, quantization et fine-tuning

Rémy Decoupes, Adrien Guille

Résumé : Nous analysons l’impact de plusieurs facteurs d’optimisation sur la qualité des informations géographiques contenues dans des grands modèles de langue (LLMs) : famille, taille, «quantization», «instruction fine-tuning», prompt et langue. Nous évaluons également la qualité des représentations internes, en particulier pour les modèles génératifs ayant des difficultés à suivre les instructions. Nos résultats montrent que la quantization dégrade nettement les performances, tandis que les versions conversationnelles («Instruct») perdent généralement en qualité d’informations par rapport à leur version «base», à l’exception des modèles de petite taille. L’ensemble de notre protocole d’évaluation est entièrement reproductible et disponible en accès libre.

Mots clés : LLM, information géographique, evaluation