# attention

16 artikelengetagd met “attention”

Attention-mechanismen en beveiliging

Hoe attention-mechanismen werken en welke rol ze spelen bij het mogelijk maken van prompt injection-aanvallen.

De transformer-architectuur voor aanvallers

Diepe duik in de transformer-architectuur — attention, feed-forward-lagen en residual-verbindingen — vanuit het perspectief van welke onderdelen exploiteerbaar zijn.

transformerattentionarchitectureintermediate

Gemiddeld

Beveiligingsuitdagingen van lange contextvensters

Beveiligingsimplicaties van contextvensters van 100K+ tokens, waaronder attention-verdunning, het vergeten van instructies en contextvergiftiging.

frontierlong-contextattention

Gevorderd

Mechanistische interpreteerbaarheid voor beveiliging

Het begrijpen van modelcircuits om kwetsbaarheden te vinden: feature-identificatie, circuitanalyse, exploitatie van attention-patronen, en het gebruik van mechanistische interpreteerbaarheid voor offensieve en defensieve AI-beveiliging.

mechanistic-interpretabilitycircuitsfeaturesattentionsecurity

Expert

Onderzoek naar attention-manipulatie

Onderzoek naar het direct manipuleren van attention-patronen om injection-doelen te bereiken, geïnformeerd door inzichten uit mechanistische interpretability.

researchattentionmanipulationmechanistic

Gevorderd

Analyse van attention-patronen voor beveiliging

Attention maps gebruiken om modelgedrag te begrijpen en te misbruiken, beveiligingsrelevante attention-patronen herkennen en de mechanica van attention inzetten voor red team-operaties.

attentiontransformersinterpretabilityattention-patternssecurity

Gevorderd

Manipulatie van attention-patronen

Craft inputs that manipulate transformer attention patterns to prioritize adversarial content over safety instructions.

labsattentionmanipulationtransformeradvanced

Gevorderd

Lab: context overflow-aanvallen

Explore context window overflow attacks that push system instructions out of the model's attention by filling the context with padding content, and measure instruction-following degradation.

labcontext-overflowprompt-injectionattentionbeginner

Beginner

Lab: overflow-aanvallen op het contextvenster

Hands-on lab exploring how overflowing a model's context window with padding content can push safety instructions out of the attention window and enable injection attacks.

labcontext-overflowattentioncontext-window

Gemiddeld

Misbruik van attention-mechanismen

Hoe het self-attention-mechanisme in transformers kan worden ingezet om modelgedrag te sturen, informatie-routing te kapen en veiligheidsinstructies te omzeilen.

attentiontransformersinternalsexploit-primitivesinformation-routing

Gevorderd

Aanvallen op het attention-mechanisme van transformers

Attacks targeting transformer attention mechanisms including attention hijacking and gradient-based manipulation.

model-deep-divestransformerattentionattacks

Expert

Context overflow-aanvallen

Technieken om het context window van een LLM te vullen met opvulinhoud om systeeminstructies uit de attention te duwen en zo hun invloed op het modelgedrag te verminderen.

prompt-injectioncontext-overflowattentioncontext-windowred-teaming

Gemiddeld

Misbruik van het context window

Geavanceerde technieken om de mechanismen van het context window in LLM's te misbruiken, waaronder attention-verdunning, aanvallen op positional encoding, manipulatie van de KV-cache en verwarring van contextgrenzen.

prompt-injectioncontext-windowattentionpositional-encodingred-teaming

Gevorderd

Aanvalsvectoren op modelarchitectuur

Hoe keuzes in modelarchitectuur exploiteerbare aanvalsoppervlakken creëren, waaronder attentiemechanismen, MoE-routing, KV-cache en kwetsbaarheden in het contextvenster.

architectureattentionmoekv-cachecontext-windowattack-surface

Gevorderd

Walkthrough: attention hijacking-aanval

Hijack transformer attention mechanisms to redirect model focus toward adversarial instructions in the context.

walkthroughsattentionhijackingtransformer

Gevorderd

Walkthrough: overflow van het model-contextvenster

Overflow the context window to push safety instructions outside the effective attention range.

walkthroughscontext-overflowattentioninjection

Gemiddeld