Synthèse de gestes communicatifs via STARGATE
Louis Abel, Vincent Colotte, Slim Ouni
Résumé : La synthèse de gestes lié à la parole est un domaine de recherche en pleine expansion. Cependant, les nouveaux systèmes utilisent souvent des architectures complexes, les rendant souvent inadaptés à leur utilisation dans des agents conversationnels incarnés ou dans d'autres domaines de recherche comme la linguistique, où le lien entre la parole et les gestes est difficile à étudier manuellement. Cet article présente STARGATE, une nouvelle architecture tirant parti de l'autorégression pour fournir des capacités en temps réel, mais aussi des convolutions de graphe couplées à l'attention pour incorporer des connaissances structurelles explicites et permettre une forte compréhension spatiale et temporelle du geste. Nous avons démontré que notre modèle est capable de générer des gestes convaincants en surpassant l'état de l'art dans une étude quantitative, tout en obtenant des scores légèrement meilleurs en termes de cohérence et de crédibilité des gestes générés liés à la parole sur une étude perceptive.
Mots clés : Apprentissage profond,Synthèse de gestes,Synthèse audiovisuel de la parole