Score d’influence et interprétabilité des Transformers : Mesure de l’impact réel des têtes d’attention en inférence

Lisa Bouger

Résumé : Nous proposons un score d’influence permettant de mesurer la contribution des têtes d’attention aux décisions de classification dans des modèles Transformer dédiés à la détection de prompt malveillant (jailbreak, injection). Ce score combine l’influence sur la direction des logits et sur la construction du le flux résiduel, offrant une lecture multi-échelle (tête, couche, réseau). Appliqué à un modèle DeBERTa spécialisé pour la détection d’injections, notre cadre met en évidence des comportements distincts selon l’issue de la prédiction. Notre méthode constitue un compromis efficace entre analyses fines des circuits internes et méthodes globales fondées sur les sorties, et permet d’étudier les mécanismes décisionnels des classifieurs Transformer.

Mots clés : interprétabilité des Transformers, têtes d’attention, détection d’injection de prompt, sécurité des LLM, analyse du flux résiduel, mécanisme décisionnel.

Téléchargement :
[article]
[bibtex]

talnarchives

Une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue.

Score d’influence et interprétabilité des Transformers : Mesure de l’impact réel des têtes d’attention en inférence

Lisa Bouger