@inproceedings{Bouger:CORIA-TALN-2026:2026,
    author = "Bouger, Lisa",
    title = "Score d{\textquoteright}influence et interpr\'etabilit\'e des Transformers : Mesure de l{\textquoteright}impact r\'eel des t\^etes d{\textquoteright}attention en inf\'erence",
    booktitle = "Actes de CORIA-TALN 2026. Actes des 19e Rencontres Jeunes Chercheurs en RI (RJCRI) et 28\`eme Rencontre des \'Etudiants Chercheurs  en Informatique pour le Traitement Automatique des Langues (RECITAL)",
    month = "6",
    year = "2026",
    address = "Nantes, France",
    publisher = "Association pour le Traitement Automatique des Langues",
    pages = "52-67",
    note = "",
    abstract = "Nous proposons un score d{\textquoteright}influence permettant de mesurer la contribution des t\^etes d{\textquoteright}attention aux
d\'ecisions de classification dans des mod\`eles Transformer d\'edi\'es \`a la d\'etection de prompt malveillant
(jailbreak, injection). Ce score combine l{\textquoteright}influence sur la direction des logits et sur la construction
du le flux r\'esiduel, offrant une lecture multi-\'echelle (t\^ete, couche, r\'eseau). Appliqu\'e \`a un mod\`ele
DeBERTa sp\'ecialis\'e pour la d\'etection d{\textquoteright}injections, notre cadre met en \'evidence des comportements
distincts selon l{\textquoteright}issue de la pr\'ediction. Notre m\'ethode constitue un compromis efficace entre analyses
fines des circuits internes et m\'ethodes globales fond\'ees sur les sorties, et permet d{\textquoteright}\'etudier les
m\'ecanismes d\'ecisionnels des classifieurs Transformer.",
    keywords = "interpr\'etabilit\'e des Transformers, t\^etes d{\textquoteright}attention, d\'etection d{\textquoteright}injection de prompt, s\'ecurit\'e des LLM, analyse du flux r\'esiduel, m\'ecanisme d\'ecisionnel.",
    url = "2009.pdf"
}
