DQE : Génération de données diversifiées par agents pour le question-réponse sur tables
Raphaël Mouravieff, Tanguy Herserant, Arthur Satouf, Habiboulaye Amadou Boubacar, Pablo Piantanida, Vincent Guigue, Sylvain Lamprier, Benjamin Piwowarski
Résumé : Les modèles de question-réponse sur tables (TableQA) présentent des échecs de généralisation face à des modifications simples de la structure des tables ou des questions posées. Nous soutenons que cela provient de la diversité limitée des jeux de données de pré-entraînement intermédiaire. Pour y remédier, nous introduisons un cadre multi-agents qui génère un ensemble diversifié et progressivement complexe de paires question--\ac{sql}. Notre cadre comprend trois agents spécialisés~: un \textit{agent curriculum}, un \textit{agent traducteur} et un \textit{agent diversificateur}. Le pré-entraînement d'un modèle basé sur BART sur le jeu de données résultant, DQE, améliore substantiellement la robustesse sur le benchmark ROBUT par rapport à des modèles de référence tels que TAPEX.
Mots clés : Question-réponse sur tables, génération de données, systèmes multi-agents, robustesse, SQL