Misbruik van attention-mechanismen
Hoe het self-attention-mechanisme in transformers kan worden ingezet om modelgedrag te sturen, informatie-routing te kapen en veiligheidsinstructies te omzeilen.
attentiontransformersinternalsexploit-primitivesinformation-routing