De l’importance des formats : une évaluation critique des formats de sorties dans les amorces des Grands Modèles de Langues pour la compréhension de la parole et la REN
Pierre Lepagnol, Sahar Ghannay, Thomas Gerald, Christophe Servan, Sophie Rosset
Résumé : Le format de sortie est un facteur souvent oublié lors de l'évaluation des grands modèles de langue (LLM) pour des tâches de remplissage de formulaire (slot-filling) ou de reconnaissance d'entités nommées (REN). Ce travail propose d'explorer l'impact des formats des structures des sorties générées par les LLM. Nous montrons que les résultats obtenus dépendent du format demandé (JSON, XML ou clé-valeur). Une étude est menée sur quatre tâches de compréhension de la parole et trois tâches de REN, avec treize LLM instruits à poids ouverts utilisant des amorces (prompts) et des analyseurs en sources ouvertes. Cette évaluation centrée sur les formats révèle des écarts significatifs de 2 à 46 points de F1, selon les modèles et les corpus. Enfin, nous proposons une méthode élégante et peu impactante de sélection de la meilleure paire modèle-corpus en utilisant qu'une sous-partie du corpus de validation, ce qui permet de limiter le nombre d'essais.
Mots clés : évaluation, amorce de LLM, formats de sortie, compréhension de la parole, REN, grands modèles de langues