talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Les modèles multimodaux peuvent-ils aider à l'interprétation de cartes ? Une étude exploratoire avec GPT-4o

Edith Galy, Ahmed Moubtahij, Azur Handan, Marc Queudot

Résumé : Cet article explore l’utilisation des modèles de langage multimodaux, en particulier GPT-4o, pour l’interprétation automatisée de cartes de risque d’inondation. Un prototype a été développé afin de permettre à des utilisateurs non-experts de poser des questions en langage naturel et d’obtenir des réponses ancrées sur des données géospatiales visuelles. Un jeu de données ad hoc a été constitué pour évaluer la capacité du modèle à répondre à des questions fermées, selon différentes stratégies de génération. Malgré certaines améliorations grâce à l’usage de schémas de génération structurée et de raisonnements intermédiaires, les résultats révèlent une forte tendance aux hallucinations et des performances insuffisantes pour une application en contexte critique. Cette étude met en évidence les limites actuelles des modèles multimodaux pour l’analyse cartographique, et souligne la nécessité de recherches fondamentales et de corpus plus étendus pour fiabiliser ces approches.

Mots clés : Modèles de langage multimodaux Interprétation de cartes Risque d’inondation Question-réponse visuelle (VQA) Hallucinations Données géospatiales Communication de crise climatique Génération structurée GPT-4o