@inproceedings{Catalan-Gris-Gerdes:CORIA-TALN-2026:2026,
    author = "Catal\'an Gris, Luc{\'\i}a and Gerdes, Kim",
    title = "On the difficulty of producing good linguistic lies",
    booktitle = "Actes de CORIA-TALN 2026. Actes de l'atelier Analyse et Recherche de Textes Scientifiques (ARTS)@TALN 2026",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "115-127",
    note = "Tester si les grands mod\`eles de langage (LLM) capturent la structure linguistique (au-del\`a de la fluidit\'e de surface) n\'ecessite des affirmations linguistiques vraies et fausses",
    abstract = "Tester si les grands mod\`eles de langage (LLM) capturent la structure linguistique (au-del\`a de la fluidit\'e de surface) n\'ecessite des affirmations linguistiques vraies et fausses. Bien que les affirmations vraies puissent \^etre tir\'ees de la litt\'erature, produire des \'equivalents faux convaincants ({\guillemotleft} mensonges linguistiques {\guillemotright}) n{\textquoteright}est pas trivial. \`A l{\textquoteright}aide de 235 paires d{\textquoteright}affirmations tir\'ees d{\textquoteright}articles de syntaxe th\'eo- rique, nous testons GPT-5.2 et observons une forte asym\'etrie : il rejette efficacement les affirmations fausses (sp\'ecificit\'e \'elev\'ee) mais confirme difficilement les affirmations vraies (faible rappel). Nous examinons trois causes possibles {\textemdash} les indices de surface, le type de contradiction (n\'egation simple vs contradiction s\'emantique) et le format de pr\'esentation (isol\'e, par paires, en lots) {\textemdash} et montrons que (i) les indices de surface n{\textquoteright}expliquent pas cet effet, (ii) la n\'egation explicite n{\textquoteright}apporte aucune am\'elioration, et (iii) le formatage contrastif/par paires gonfle les performances. Enfin, le mod\`ele pr\'esente un biais de rejet persistant (48\\% de faux n\'egatifs sur les affirmations vraies), ce qui sugg\`ere que cette asym\'etrie est davantage dict\'ee par la prudence que par un manque de connaissances.",
    keywords = "n\'egation, g\'en\'eration de contradictions, v\'erification des connaissances linguistiques, \'evaluation de grands mod\`eles de langue, analyse d'articles scientifiques, \'evaluation zero-shot",
    url = "11.pdf"
}
