Vers l’évaluation de systèmes de dialogue homme-machine : de l’oral au multimodal
Frédéric Landragin
Résumé : L’évaluation pour le dialogue homme-machine ne se caractérise pas par l’efficacité, l’objectivité et le consensus que l’on observe dans d’autres domaines du traitement automatique des langues. Les systèmes de dialogue oraux et multimodaux restent cantonnés à des domaines applicatifs restreints, ce qui rend difficiles les évaluations comparatives ou normées. De plus, les avancées technologiques constantes rendent vite obsolètes les paradigmes d’évaluation et ont pour conséquence une multiplication de ceux-ci. Des solutions restent ainsi à trouver pour améliorer les méthodes existantes et permettre des diagnostics plus automatisés des systèmes. Cet article se veut un ensemble de réflexions autour de l’évaluation de la multimodalité dans les systèmes à forte composante linguistique. Des extensions des paradigmes existants sont proposées, en particulier DQR/DCR, sachant que certains sont mieux adaptés que d’autres au dialogue multimodal. Des conclusions et perspectives sont tirées sur l’avenir de l’évaluation pour le dialogue homme-machine.
Abstract : Evaluating human-machine dialogue systems is not so efficient, objective, and consensual than evaluating other natural language processing systems. Oral and multimodal dialogue systems are still working within reduced applicative domains. Comparative and normative evaluations are then difficult. Moreover, the continuous technological progress makes obsolete and numerous the evaluating paradigms. Some solutions are still to be identified to improve existing methods and to allow a more automatic diagnosis of systems. The aim of this paper is to provide a set of remarks dealing with the evaluation of multimodal spoken language dialogue systems. Some extensions of existing paradigms are presented, in particular DQR/DCR, considering that some paradigms fit better multimodal issues than others. Some conclusions and perspectives are then drawn on the future of the evaluation of human-machine dialogue systems.
Mots clés : Dialogue finalisé, multimodalité, évaluation pour le dialogue hommemachine, paradigme d’évaluation, test utilisateur, diagnostic, paraphrase multimodale
Keywords : Task-driven dialogue, multimodality, evaluating human-machine dialogue, evaluation paradigm, user test, diagnosis