Modèles de langue appliqués aux schémas Winograd français
Olga Seminck, Vincent Segonne, Pascal Amsili
Résumé : Les schémas Winograd sont des problèmes de résolution d’anaphores conçus pour nécessiter un raisonnement sur des connaissances du monde. Par construction, ils sont insensibles à des statistiques simples (co-occurrences en corpus). Pourtant, aujourd’hui, les systèmes état de l’art pour l’anglais se basent sur des modèles de langue pour résoudre les schémas (Trinh & Le, 2018). Nous présentons dans cet article une étude visant à tester des modèles similaires sur les schémas en français. Cela nous conduit à revenir sur les métriques d’évaluation utilisées dans la communauté pour les schémas Winograd. Les performances que nous obtenons, surtout comparées à celles de Amsili & Seminck (2017b), suggèrent que l’approche par modèle de langue des schémas Winograd reste limitée, sans doute en partie à cause du fait que les modèles de langue encodent très difficilement le genre de raisonnement nécessaire à la résolution des schémas Winograd.
Mots clés : Schémas Winograd, résolution d’anaphores, modèle de langue, context2vec, LSTM.