Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)

Lucas Aubertin, Guillaume Gadek, Gilles Sérasset, Maxime Prieur, Nakanyseth Vuth, Bruno Grilheres, Didier Schwab, Cédric Lopez » [article] [bib] [résumé]
"POPCORN-RENS : un nouveau jeu de données en français annoté en entités d'intérêts sur une thématique ""sécurité et défense"""
Tanguy Herserant, Vincent Guigue » [article] [bib] [résumé]
AllSummedUp : un framework open-source pour comparer les métriques d'évaluation de résumé
Imane Moughit, Imad Hafidi » [article] [bib] [résumé]
Amélioration et Automatisation de la Génération des Cas de Tests Logiciels à l'Aide du Modèle Llama
Julien Perez, Idir Benouaret » [article] [bib] [résumé]
Approche générative de la conformation pragmatique : une étude de cas de l'analyse d'une conférence
Christophe Servan, Cyril Grouin, Aurélie Névéol, Pierre Zweigenbaum » [article] [bib] [résumé]
Comment évaluer un grand modèle de langue dans le domaine médical en français ?
Mathieu Valette » [article] [bib] [résumé]
Culture et acculturation des grands modèles de langue
Alisa Barkar, Mathieu Chollet, Matthieu Labeau, Béatrice Biancardi, Chloé Clavel » [article] [bib] [résumé]
Décoder le pouvoir de persuasion dans les concours d'éloquence : une étude sur la capacité des modèles de langues à évaluer la prise de parole en public
Elena Rozera, Nédra Mellouli-Nauwynck, Patrick Leguide, William Morcombe » [article] [bib] [résumé]
Des Prompts aux Profils: Evaluation de la qualité des données générées par LLM pour la classification des soft skills
Rémy Decoupes, Adrien Guille » [article] [bib] [résumé]
Étude des déterminants impactant la qualité de l'information géographique chez les LLMs : famille, taille, langue, quantization et fine-tuning
Mohamed Amine El Yagouby, Mehdi Zekroum, Abdelkader Lahmadi, Mounir Ghogho, Olivier Festor » [article] [bib] [résumé]
Evaluating LLMs Efficiency Using Successive Attempts on Binary-Outcome Tasks
Kévin Séjourné, Marine Foucher, Alexandru Lata, Jean-Fabrice Lebraty » [article] [bib] [résumé]
Évaluation Comparative de la Génération Contrainte vs. du Post-Parsing pour l'Analyse de Contenu par LLMs : Étude sur le Corpus EUvsDisinfo
Julien Perez, Aurélien Pellet, Marie Puren » [article] [bib] [résumé]
Évaluation automatique du retour à la source dans un contexte historique long et bruité. Application aux débats parlementaires de la Troisième République française
Fares Grina, Natalia Kalashnikova » [article] [bib] [résumé]
Évaluation de la Robustesse des LLM : Proposition d'un Cadre Méthodologique et Développement d'un Benchmark
Marcel Gibier, Raphaël Duroselle, Pierre Serrano, Olivier Boëffard, Jean-François Bonastre » [article] [bib] [résumé]
Évaluation de la description automatique de scènes audio par la tâche d'Audio Question Answering
Sam Vallet, Philippe Suignard » [article] [bib] [résumé]
Evaluation de petits modèles de langues (SLM) sur un corpus de Sciences Humaines et Sociales (SHS) en français
Julien Perez, Anton Conrad, Laïla Elkoussy » [article] [bib] [résumé]
Évaluation pédagogique du code à l'aide de grands modèles de langage. Une étude comparative à grande échelle contre les tests unitaires
Abdelhak Kelious » [article] [bib] [résumé]
Exploration de stratégies de prédiction de la complexité lexicale en contexte multilingue à l'aide de modèles de langage génératifs et d'approches supervisées.
Louis Jourdain, Skander Hellal » [article] [bib] [résumé]
Générer pour mieux tester : vers des datasets diversifiés pour une évaluation fiable des systèmes de Question Answering
Giovanni Gatti~Pinheiro, Sarra Gharsallah, Adèle Robaldo, Mariia Tokareva, Ilyana Guendouz, Raphaël Troncy, Paolo Papotti, Pietro Michiardi » [article] [bib] [résumé]
Peut-on faire confiance aux juges ? Validation de méthodes d'évaluation de la factualité par perturbation des réponses
Markarit Vartampetian, Diandra Fabre, Philippe Mulhem, Sylvain Joubert, Didier Schwab » [article] [bib] [résumé]
SuperGPQA-HCE-FR : un corpus spécialisé en français pour le domaine hydraulique et le génie civil
Oussama Silem, Maïwenn Fleig, Philippe Blache, Houda Oufaida, Leonor Becerra-Bonache » [article] [bib] [résumé]
Une Approche Linguistique pour l’Évaluation des Caractéristiques du Langage Parlé dans les Modèles Conversationnels
Grégoire Martinon, Alexandra Lorenzo~De~Brionne, Jérôme Bohard, Antoine Lojou, Damien Hervault, Nicolas Brunel » [article] [bib] [résumé]
Vers une évaluation rigoureuse des systèmes RAG : le défi de la due diligence

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Actes de l'atelier Évaluation des modèles génératifs (LLM) et challenge 2025 (EvalLLM)