@inproceedings{Ayomide-G-Moreno-Radouane-Tamine:CORIA-TALN-2026:2026,
    author = "Ayomide, Abayomi-Alli and G Moreno, Jose and Radouane, Karim and Tamine, Lynda",
    title = "GeoBenchmark : Analyse des grands mod\`eles de langage pour les connaissances g\'eospatiales",
    booktitle = "Actes de CORIA-TALN 2026. Actes de la 21e Conf\'erence en Recherche d'Information et Applications.  Volume 2 : articles d\'ej\`a publi\'es",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "2-17",
    note = "",
    abstract = "Les grands mod\`eles de langage (LLM) font preuve d'une forte capacit\'e \`a restituer des connaissances g\'en\'erales, mais ont du mal \`a traiter les connaissances g\'eospatiales concr\`etes. Afin de mesurer et d'aider \`a tester les connaissances spatiales des LLM, nous pr\'esentons {\textbackslash}textbf{GeoBenchmark}, un benchmark permettant d'\'evaluer le bon sens g\'eographique selon trois relations spatiales fondamentales : la {\textbackslash}textbf{direction}, la {\textbackslash}textbf{distance} et la {\textbackslash}textbf{topologie}. \`A partir des donn\'ees extraites de YAGO2geo et des g\'eom\'etries des quartiers de l'{\textbackslash}textit{Ordnance Survey}, les relations spatiales ont \'et\'e formalis\'ees sous forme de triplets structur\'es et syst\'ematiquement transform\'ees en paires de questions-r\'eponses \'equilibr\'ees de type binaire (Oui/Non) et \`a choix multiples (QCM). En outre, nous prenons en compte les questions atomiques et composites en fonction du nombre de relations spatiales impliqu\'ees. L'ensemble de donn\'ees r\'esultant comprend 26 000 \'echantillons binaires et 13 000 \'echantillons MCQ, r\'epartis uniform\'ement entre les niveaux de relations atomiques, binaires et ternaires. Nous \'etablissons des r\'ef\'erences avec {\textbackslash}textbf{LLaMA-8B} et {\textbackslash}textbf{Mistral-7B} sous prompting zero-shot, obtenant une pr\'ecision de 52 \`a 63 {\textbackslash}\\% sur les questions atomiques, mais inf\'erieure \`a 35 {\textbackslash}\\% sur les relations ternaires, ce qui r\'ev\`ele la compr\'ehension spatiale compositionnelle limit\'ee des mod\`eles et leur fort biais d'option. {\textbackslash}textbf{GeoBenchmark} fournit une ressource compl\`ete et reproductible pour tester et faire progresser le sens commun g\'eographique des LLM, ouvrant la voie \`a de futures recherches sur l'exploration spatiale et g\'eographique des LLM ainsi que sur l'\'edition des connaissances.  Ceci est le r\'esum\'e de l{\textquoteright}article {\textquotedblleft}GeoBenchmark: Probing Large Language Models for Geo-Spatial Knowledge{\textquotedblright} publi\'e dans la conf\'erence LREC2026",
    keywords = "LLM, geospatial reasoning, spatial commonsense, GeoSPARQL",
    url = "40026.pdf"
}