Wat is Tokenization Attacks?

Hoe het gedrag van tokenizers misbruikbare gaten creëert tussen voor mensen leesbare tekst en de interne representaties van het model, waardoor filteromzeiling en obfuscatie van payloads mogelijk worden.

Wat is Attention Exploitation?

Hoe het self-attention-mechanisme in transformers kan worden ingezet om modelgedrag te sturen, informatie-routing te kapen en veiligheidsinstructies te omzeilen.

Wat is Embedding Manipulation?

Technieken om de embeddinglaag van LLM's aan te vallen, waaronder adversarial verstoringen, embedding-inversie en manipulatie van de semantische ruimte.

Wat is Logit Bias Exploitation?

Hoe de logit-bias-parameters van API's misbruikt kunnen worden om de generatie van specifieke tokens af te dwingen, veiligheids-alignment te omzeilen, weigeringstokens te onderdrukken en modelgedrag te extraheren via systematische probing.

Wat is Sampling Parameter Attacks?

Hoe manipulatie van temperature, top-p, top-k, frequency penalties en seed-parameters veiligheids-alignment kan verzwakken, reproduceerbaarheidsaanvallen mogelijk kan maken en inhoudsfiltering kan omzeilen.

Wat is KV Cache & Prompt Caching Attacks?

Hoe KV-cache-poisoning, misbruik van prefix-caching, side channels via cache-timing en falende isolatie in multi-tenant-omgevingen aanvalsvectoren creëren in de serving-infrastructuur van LLM's.

Wat is Activation Manipulation & Safety Bypass?

Hoe het identificeren en onderdrukken van veiligheidskritieke activaties, weigeringsrichtingsvectoren en activation-steering-technieken veiligheids-alignment kunnen omzeilen met slagingspercentages van bijna 100%, inclusief de IRIS-techniek van NAACL 2025.

Interne werking van LLM's en exploit-primitieven

Beginner5 min lezenBijgewerkt op 2026-03-12

Een overzicht van de architectuur van grote taalmodellen vanuit het perspectief van een securityonderzoeker, met de belangrijkste componenten die misbruikbare aanvalsoppervlakken creëren.

llm transformers internals exploit-primitives architecture

Grote taalmodellen (LLM's) zijn gebouwd op de transformer-architectuur, een neuraal netwerkontwerp dat tekst verwerkt als sequenties van tokens en attention-mechanismen gebruikt om te bepalen hoe informatie tussen die tokens stroomt. Voor AI-redteamers is begrip van deze interne werking niet optioneel — het is de basis waarop elke exploit-techniek rust.

Waarom interne werking belangrijk is voor redteaming

Traditionele penetratietesters bestuderen de interne werking van besturingssystemen, geheugenindelingen en protocolspecificaties. AI-redteamers hebben een vergelijkbare diepgang nodig in de architectuur van LLM's. Elke component van de transformer-pijplijn — tokenisatie, embedding, attention, feed-forward-lagen en uitvoergeneratie — introduceert een eigen aanvalsoppervlak.

De transformer-pijplijn

Op hoofdlijnen verwerkt elk LLM invoer via deze fasen:

Tokenisatie — Ruwe tekst wordt opgesplitst in subword-tokens met behulp van algoritmen zoals BPE of SentencePiece. Hier opereren tokenisatie-aanvallen.
Embedding — Tokens worden afgebeeld op hoogdimensionale vectoren. Embeddingmanipulatie richt zich op deze laag.
Attention-lagen — Self-attention-mechanismen routeren informatie tussen tokenposities. Misbruik van attention maakt gebruik van hoe modellen verschillende delen van de invoer prioriteren.
Feed-forward-netwerken — Elke laag bevat dichte netwerken die geleerde associaties opslaan.
Uitvoerprojectie — Verborgen toestanden worden geprojecteerd op woordenschat-logits en vervolgens gesampled om tekst te produceren.

Invoertekst → Tokenizer → Embeddings → [Attention + FFN] × N lagen → Logits → Uitvoertokens

Belangrijke security-relevante eigenschappen

Eigenschap	Beschrijving	Relevantie voor exploits
Geen scheiding van privileges	Systeemprompts en gebruikersinvoer delen dezelfde tokenstroom	Prompt injection is architectonisch mogelijk
Statistische verwerking	Alle beslissingen zijn probabilistisch, niet regelgebaseerd	Veiligheidsfilters kunnen met voldoende optimalisatie worden omzeild
Limieten van het contextvenster	Modellen kunnen slechts een vast aantal tokens verwerken	Verdunning van attention en aanvallen met context-stuffing
Autoregressieve generatie	Elk token hangt af van alle voorgaande tokens	Plaatsing van de payload beïnvloedt alle latere generatie

Wat je gaat leren

Dit gedeelte behandelt vier kerngebieden:

Tokenisatie-aanvallen — Hoe de grens tussen menselijke tekst en modeltokens misbruikbare gaten creëert
Misbruik van attention — Het attention-mechanisme inzetten om modelgedrag te sturen
Embeddingmanipulatie — De vectorruimte aanvallen waarin modellen betekenis representeren

Elk onderwerp bouwt voort op de fundamenten die hier worden geïntroduceerd en neemt geleidelijk toe in complexiteit. Begin met tokenisatie-aanvallen als je nieuw bent in LLM-securityonderzoek.

Gerelateerde onderwerpen

Hoe LLM's werken -- fundamentele transformer-architectuur en trainingspijplijnen
Technieken om alignment te omzeilen -- veiligheidstraining misbruiken op het niveau van de interne werking
Grondbeginselen van prompt injection -- kennis van de interne werking toepassen op praktische injectie-aanvallen
Exploit-ontwikkeling -- betrouwbare exploits bouwen vanuit architectonisch begrip
Misbruik van embeddings (gevorderd) -- verdieping in aanvallen op de embeddinglaag

Referenties

Vaswani et al., "Attention Is All You Need" (2017) -- de oorspronkelijke paper over de transformer-architectuur
Elhage et al., "A Mathematical Framework for Transformer Circuits" (2021) -- mechanistische interpreteerbaarheid van attention-heads
Carlini et al., "Are aligned neural networks adversarially aligned?" (2023) -- waarom veiligheids-alignment fragiel is op architectonisch niveau
Wei et al., "Jailbroken: How Does LLM Safety Training Fail?" (2023) -- het in kaart brengen van de architectonische faalwijzen van veiligheidstraining

Knowledge Check

Waarom is prompt injection architectonisch mogelijk in transformer-gebaseerde LLM's?

Interne werking van LLM's en exploit-primitieven

Beginner5 min lezenBijgewerkt op 2026-03-12

Een overzicht van de architectuur van grote taalmodellen vanuit het perspectief van een securityonderzoeker, met de belangrijkste componenten die misbruikbare aanvalsoppervlakken creëren.

llm transformers internals exploit-primitives architecture

Waarom interne werking belangrijk is voor redteaming

De transformer-pijplijn

Op hoofdlijnen verwerkt elk LLM invoer via deze fasen:

Tokenisatie — Ruwe tekst wordt opgesplitst in subword-tokens met behulp van algoritmen zoals BPE of SentencePiece. Hier opereren tokenisatie-aanvallen.
Embedding — Tokens worden afgebeeld op hoogdimensionale vectoren. Embeddingmanipulatie richt zich op deze laag.
Attention-lagen — Self-attention-mechanismen routeren informatie tussen tokenposities. Misbruik van attention maakt gebruik van hoe modellen verschillende delen van de invoer prioriteren.
Feed-forward-netwerken — Elke laag bevat dichte netwerken die geleerde associaties opslaan.
Uitvoerprojectie — Verborgen toestanden worden geprojecteerd op woordenschat-logits en vervolgens gesampled om tekst te produceren.

Invoertekst → Tokenizer → Embeddings → [Attention + FFN] × N lagen → Logits → Uitvoertokens

Belangrijke security-relevante eigenschappen

Eigenschap	Beschrijving	Relevantie voor exploits
Geen scheiding van privileges	Systeemprompts en gebruikersinvoer delen dezelfde tokenstroom	Prompt injection is architectonisch mogelijk
Statistische verwerking	Alle beslissingen zijn probabilistisch, niet regelgebaseerd	Veiligheidsfilters kunnen met voldoende optimalisatie worden omzeild
Limieten van het contextvenster	Modellen kunnen slechts een vast aantal tokens verwerken	Verdunning van attention en aanvallen met context-stuffing
Autoregressieve generatie	Elk token hangt af van alle voorgaande tokens	Plaatsing van de payload beïnvloedt alle latere generatie

Wat je gaat leren

Dit gedeelte behandelt vier kerngebieden:

Tokenisatie-aanvallen — Hoe de grens tussen menselijke tekst en modeltokens misbruikbare gaten creëert
Misbruik van attention — Het attention-mechanisme inzetten om modelgedrag te sturen
Embeddingmanipulatie — De vectorruimte aanvallen waarin modellen betekenis representeren

Elk onderwerp bouwt voort op de fundamenten die hier worden geïntroduceerd en neemt geleidelijk toe in complexiteit. Begin met tokenisatie-aanvallen als je nieuw bent in LLM-securityonderzoek.

Gerelateerde onderwerpen

Hoe LLM's werken -- fundamentele transformer-architectuur en trainingspijplijnen
Technieken om alignment te omzeilen -- veiligheidstraining misbruiken op het niveau van de interne werking
Grondbeginselen van prompt injection -- kennis van de interne werking toepassen op praktische injectie-aanvallen
Exploit-ontwikkeling -- betrouwbare exploits bouwen vanuit architectonisch begrip
Misbruik van embeddings (gevorderd) -- verdieping in aanvallen op de embeddinglaag

Referenties

Vaswani et al., "Attention Is All You Need" (2017) -- de oorspronkelijke paper over de transformer-architectuur
Elhage et al., "A Mathematical Framework for Transformer Circuits" (2021) -- mechanistische interpreteerbaarheid van attention-heads
Carlini et al., "Are aligned neural networks adversarially aligned?" (2023) -- waarom veiligheids-alignment fragiel is op architectonisch niveau
Wei et al., "Jailbroken: How Does LLM Safety Training Fail?" (2023) -- het in kaart brengen van de architectonische faalwijzen van veiligheidstraining

Knowledge Check

Waarom is prompt injection architectonisch mogelijk in transformer-gebaseerde LLM's?

Interne werking van LLM's en exploit-primitieven

Waarom interne werking belangrijk is voor redteaming

De transformer-pijplijn

Belangrijke security-relevante eigenschappen

Wat je gaat leren

Gerelateerde onderwerpen

Referenties

Leerpad

Interne werking van LLM's en exploit-primitieven

Waarom interne werking belangrijk is voor redteaming

De transformer-pijplijn

Belangrijke security-relevante eigenschappen

Wat je gaat leren

Gerelateerde onderwerpen

Referenties

Leerpad

Interne werking van LLM's en exploit-primitieven

Leerpad

Gerelateerde artikelen

Interne werking van LLM's en exploit-primitieven

Leerpad

Gerelateerde artikelen