Wat is MoE Routing Manipulation?

Mixture-of-Experts-routing aanvallen: manipulatie van expertselectie, exploitatie van load balancing, omzeiling van veiligheidsexperts, en routingbewuste adversariële invoer.

Wat is KV Cache Attacks?

Hoe de KV-cache werkt in transformer-inferentie, cachevergiftiging over verzoeken heen in gedeelde deployments, prefix-caching-aanvallen, en cross-tenant-datalekkage.

Wat is Context Window Attacks?

Contextvenstergrenzen als aanvalsoppervlak: context stuffing, attentieverdunning, lost-in-the-middle-aanvallen, en hoe contextlengte de slagingskans van injecties beïnvloedt.

Wat is Inference Optimization?

Aanvallen op speculatieve decodering, kwetsbaarheden in batching, exploitatie van continuous batching, en hoe optimalisatie voor snelheid beveiligingsgaten creëert in LLM-inferentie.

Wat is Quantization Attacks?

Hoe quantisatie (GPTQ, AWQ, GGUF) de beveiliging van een model beïnvloedt, veiligheidsdegradatie door precisieverlies, quantisatiebewuste adversarial examples, en het compressieaanvalsoppervlak.

Wat is Distillation Extraction?

Knowledge distillation gebruiken voor modeldiefstal: student-teacher-extractieaanvallen, API-gebaseerde distillatie, taakspecifieke extractie, en verdediging tegen distillatiegebaseerde modeldiefstal.

Wat is Lab: Quantization Exploits?

Praktijklab dat slagingskansen van aanvallen vergelijkt over quantisatieniveaus: jailbreaks testen op FP16 vs INT8 vs INT4, veiligheidsdegradatie meten, en quantisatiebewuste exploits ontwerpen.

Wat is Model Distillation Attacks?

Modelcapaciteiten stelen via knowledge distillation: API-gebaseerde distillatie, het omzeilen van toegangsbeperkingen, taakspecifieke capaciteitsdiefstal, en verdediging tegen distillatiegebaseerde modeldiefstal.

Aanvalsvectoren op modelarchitectuur

Gevorderd5 min lezenBijgewerkt op 2026-03-13

Hoe keuzes in modelarchitectuur exploiteerbare aanvalsoppervlakken creëren, waaronder attentiemechanismen, MoE-routing, KV-cache en kwetsbaarheden in het contextvenster.

architecture attention moe kv-cache context-window attack-surface

Elke architectonische keuze in een modern LLM -- van het attentiemechanisme tot de inferentieoptimalisatiestack -- creëert een potentieel aanvalsoppervlak. In tegenstelling tot prompt-niveau-aanvallen die het aangeleerde gedrag van het model exploiteren, exploiteren aanvallen op architectuurniveau de wiskundige en technische fundamenten waarop het model is gebouwd. Deze kwetsbaarheden bestaan ongeacht hoe goed het model gealigned is.

Het architectuuraanvalsoppervlak

Moderne LLM-deployments stapelen meerdere architectonische componenten op elkaar, elk met een eigen klasse van kwetsbaarheden:

Component	Aanvalsoppervlak	Voorbeeldexploit
Attentiemechanisme	Kwadratische complexiteit, positionele encodering	Attentieverdunning, positiekaping
MoE-routing	Logica van expertselectie, load balancing	Routingmanipulatie, expertvergiftiging
KV-cache	Gedeeld geheugen over verzoeken heen	Cachevergiftiging, cross-tenant-lekkage
Contextvenster	Vast tokenbudget, positionele bias	Context stuffing, lost-in-the-middle
Quantisatie	Precisiereductie	Veiligheidsdegradatie, adversarieel precisieverlies
Speculatieve decodering	Voorspellingen van draft-model	Manipulatie van draft-model
Batching	Groepering van verzoeken voor throughput	Interferentie tussen verzoeken

Kwetsbaarheden in het attentiemechanisme

Het self-attentiemechanisme berekent paarsgewijze relaties tussen alle tokens. Dit creëert twee fundamentele aanvalsvectoren.

Attentiekaping

Een aanvaller kan invoer ontwerpen die de attentiescores domineert, waardoor het model adversariële inhoud disproportioneel zwaarder weegt dan legitieme instructies:

# Berekening van attentiescores (vereenvoudigd)
# Q, K, V = query-, key- en value-matrices
scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)
# Adversariële tokens ontworpen om hoge dot products te produceren met
# instructievolgende query-vectoren zullen de attentie domineren
attn_weights = F.softmax(scores, dim=-1)
output = torch.matmul(attn_weights, V)

Exploitatie van positionele encodering

Modellen die gebruikmaken van RoPE- of ALiBi-positionele encoderingen vertonen systematische biases op basis van tokenpositie. Tokens nabij het begin en einde van de context krijgen disproportioneel veel attentie -- een eigenschap die aanvallers exploiteren door injecties op deze posities met hoge attentie te plaatsen.

Architectuurcategorieën

Deze sectie behandelt acht klassen van aanvallen op architectuurniveau, georganiseerd van fundamenteel naar geavanceerd:

MoE-routingmanipulatie
Hoe routingbeslissingen in Mixture-of-Experts kunnen worden gemanipuleerd om specifieke experts te activeren, veiligheidsgespecialiseerde experts te omzeilen of load balancing te exploiteren. Zie MoE-routingmanipulatie.
KV-cache-vergiftiging
Het exploiteren van gedeelde KV-caches in multi-tenant-deployments voor cross-request-datalekkage en gedragsmanipulatie. Zie KV-cache-vergiftiging.
Exploitatie van het contextvenster
Contextlengtegrenzen, attentieverdeling en positionele biases gebruiken als aanvalsvectoren. Zie Exploitatie van het contextvenster.
Aanvallen op inferentieoptimalisatie
Het aanvallen van speculatieve decodering, continuous batching en andere throughput-optimalisaties. Zie Aanvallen op inferentieoptimalisatie.
Quantisatieaanvallen
Hoe inferentie met gereduceerde precisie veiligheidseigenschappen verslechtert en nieuwe adversarial examples mogelijk maakt. Zie Quantisatieaanvallen.
Distillatiegebaseerde extractie
Knowledge distillation gebruiken als vector voor modeldiefstal. Zie Distillatie-extractie.

Dreigingsmodel: Wie exploiteert architectuur?

Architectuuraanvallen vereisen andere toegangsniveaus dan prompt-niveau-aanvallen:

Aanvallersprofiel	Toegangsniveau	Typische doelwitten
Externe gebruiker	Alleen API-toegang	Contextvenster, attentiebiases
Co-tenant	Gedeelde infrastructuur	KV-cache, batching-zijkanalen
Modeloperator	Deploymentconfiguratie	Quantisatie, optimalisatie-instellingen
Supply chain	Modelgewichten	MoE-routing, distillatie
Infrastructuur-insider	Volledige stack	Alle architectuurvectoren

Checklist voor architectuurbeveiligingsassessment

Bij het red-teamen van een LLM-deployment evalueer je deze aandachtspunten op architectuurniveau:

Attentiebias-profilering -- Test de slagingskansen van injecties op verschillende contextposities om de positionele attentieverdeling van het model in kaart te brengen
Quantisatieveiligheidsaudit -- Vergelijk de resultaten van veiligheidsbenchmarks tussen het model met volledige precisie en het gedeployde gequantiseerde model
KV-cache-isolatie -- Verifieer dat cacheprefixen niet kunnen lekken tussen tenants in gedeelde deployments
Grenstest van het contextvenster -- Test het gedrag wanneer de context op 90%, 95% en 100% capaciteit zit
Validatie van inferentieoptimalisatie -- Bevestig dat speculatieve decodering en batching identieke uitvoer produceren als naïeve inferentie

Gerelateerde onderwerpen

MoE-routingmanipulatie -- Aanvallen op expertselectie
KV-cache-vergiftiging -- Cachegebaseerde cross-tenant-aanvallen
Exploitatie van het contextvenster -- Exploitatie van positionele bias
Trainings- en fine-tuning-aanvallen -- Aanvalsoppervlak tijdens training
LLM-internals -- Fundamentele transformer-concepten

Knowledge Check

Waarom verschillen aanvallen op architectuurniveau fundamenteel van prompt-niveau-jailbreaks?

Referenties

Attention Is All You Need (Vaswani et al., 2017) -- Transformer architecture
Lost in the Middle (Liu et al., 2023) -- Positional attention bias in LLMs

Aanvalsvectoren op modelarchitectuur

Gevorderd5 min lezenBijgewerkt op 2026-03-13

Hoe keuzes in modelarchitectuur exploiteerbare aanvalsoppervlakken creëren, waaronder attentiemechanismen, MoE-routing, KV-cache en kwetsbaarheden in het contextvenster.

architecture attention moe kv-cache context-window attack-surface

Het architectuuraanvalsoppervlak

Moderne LLM-deployments stapelen meerdere architectonische componenten op elkaar, elk met een eigen klasse van kwetsbaarheden:

Component	Aanvalsoppervlak	Voorbeeldexploit
Attentiemechanisme	Kwadratische complexiteit, positionele encodering	Attentieverdunning, positiekaping
MoE-routing	Logica van expertselectie, load balancing	Routingmanipulatie, expertvergiftiging
KV-cache	Gedeeld geheugen over verzoeken heen	Cachevergiftiging, cross-tenant-lekkage
Contextvenster	Vast tokenbudget, positionele bias	Context stuffing, lost-in-the-middle
Quantisatie	Precisiereductie	Veiligheidsdegradatie, adversarieel precisieverlies
Speculatieve decodering	Voorspellingen van draft-model	Manipulatie van draft-model
Batching	Groepering van verzoeken voor throughput	Interferentie tussen verzoeken

Kwetsbaarheden in het attentiemechanisme

Het self-attentiemechanisme berekent paarsgewijze relaties tussen alle tokens. Dit creëert twee fundamentele aanvalsvectoren.

Attentiekaping

Een aanvaller kan invoer ontwerpen die de attentiescores domineert, waardoor het model adversariële inhoud disproportioneel zwaarder weegt dan legitieme instructies:

# Berekening van attentiescores (vereenvoudigd)
# Q, K, V = query-, key- en value-matrices
scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)
# Adversariële tokens ontworpen om hoge dot products te produceren met
# instructievolgende query-vectoren zullen de attentie domineren
attn_weights = F.softmax(scores, dim=-1)
output = torch.matmul(attn_weights, V)

Exploitatie van positionele encodering

Architectuurcategorieën

Deze sectie behandelt acht klassen van aanvallen op architectuurniveau, georganiseerd van fundamenteel naar geavanceerd:

MoE-routingmanipulatie
Hoe routingbeslissingen in Mixture-of-Experts kunnen worden gemanipuleerd om specifieke experts te activeren, veiligheidsgespecialiseerde experts te omzeilen of load balancing te exploiteren. Zie MoE-routingmanipulatie.
KV-cache-vergiftiging
Het exploiteren van gedeelde KV-caches in multi-tenant-deployments voor cross-request-datalekkage en gedragsmanipulatie. Zie KV-cache-vergiftiging.
Exploitatie van het contextvenster
Contextlengtegrenzen, attentieverdeling en positionele biases gebruiken als aanvalsvectoren. Zie Exploitatie van het contextvenster.
Aanvallen op inferentieoptimalisatie
Het aanvallen van speculatieve decodering, continuous batching en andere throughput-optimalisaties. Zie Aanvallen op inferentieoptimalisatie.
Quantisatieaanvallen
Hoe inferentie met gereduceerde precisie veiligheidseigenschappen verslechtert en nieuwe adversarial examples mogelijk maakt. Zie Quantisatieaanvallen.
Distillatiegebaseerde extractie
Knowledge distillation gebruiken als vector voor modeldiefstal. Zie Distillatie-extractie.

Dreigingsmodel: Wie exploiteert architectuur?

Architectuuraanvallen vereisen andere toegangsniveaus dan prompt-niveau-aanvallen:

Aanvallersprofiel	Toegangsniveau	Typische doelwitten
Externe gebruiker	Alleen API-toegang	Contextvenster, attentiebiases
Co-tenant	Gedeelde infrastructuur	KV-cache, batching-zijkanalen
Modeloperator	Deploymentconfiguratie	Quantisatie, optimalisatie-instellingen
Supply chain	Modelgewichten	MoE-routing, distillatie
Infrastructuur-insider	Volledige stack	Alle architectuurvectoren

Checklist voor architectuurbeveiligingsassessment

Bij het red-teamen van een LLM-deployment evalueer je deze aandachtspunten op architectuurniveau:

Attentiebias-profilering -- Test de slagingskansen van injecties op verschillende contextposities om de positionele attentieverdeling van het model in kaart te brengen
Quantisatieveiligheidsaudit -- Vergelijk de resultaten van veiligheidsbenchmarks tussen het model met volledige precisie en het gedeployde gequantiseerde model
KV-cache-isolatie -- Verifieer dat cacheprefixen niet kunnen lekken tussen tenants in gedeelde deployments
Grenstest van het contextvenster -- Test het gedrag wanneer de context op 90%, 95% en 100% capaciteit zit
Validatie van inferentieoptimalisatie -- Bevestig dat speculatieve decodering en batching identieke uitvoer produceren als naïeve inferentie

Gerelateerde onderwerpen

MoE-routingmanipulatie -- Aanvallen op expertselectie
KV-cache-vergiftiging -- Cachegebaseerde cross-tenant-aanvallen
Exploitatie van het contextvenster -- Exploitatie van positionele bias
Trainings- en fine-tuning-aanvallen -- Aanvalsoppervlak tijdens training
LLM-internals -- Fundamentele transformer-concepten

Knowledge Check

Waarom verschillen aanvallen op architectuurniveau fundamenteel van prompt-niveau-jailbreaks?

Referenties

Attention Is All You Need (Vaswani et al., 2017) -- Transformer architecture
Lost in the Middle (Liu et al., 2023) -- Positional attention bias in LLMs

Aanvalsvectoren op modelarchitectuur

Het architectuuraanvalsoppervlak

Kwetsbaarheden in het attentiemechanisme

Attentiekaping

Exploitatie van positionele encodering

Architectuurcategorieën

MoE-routingmanipulatie

KV-cache-vergiftiging

Exploitatie van het contextvenster

Aanvallen op inferentieoptimalisatie

Quantisatieaanvallen

Distillatiegebaseerde extractie

Dreigingsmodel: Wie exploiteert architectuur?

Checklist voor architectuurbeveiligingsassessment

Gerelateerde onderwerpen

Referenties

Leerpad

Aanvalsvectoren op modelarchitectuur

Het architectuuraanvalsoppervlak

Kwetsbaarheden in het attentiemechanisme

Attentiekaping

Exploitatie van positionele encodering

Architectuurcategorieën

MoE-routingmanipulatie

KV-cache-vergiftiging

Exploitatie van het contextvenster

Aanvallen op inferentieoptimalisatie

Quantisatieaanvallen

Distillatiegebaseerde extractie

Dreigingsmodel: Wie exploiteert architectuur?

Checklist voor architectuurbeveiligingsassessment

Gerelateerde onderwerpen

Referenties

Leerpad

Aanvalsvectoren op modelarchitectuur

MoE-routingmanipulatie

KV-cache-vergiftiging

Exploitatie van het contextvenster

Aanvallen op inferentieoptimalisatie

Quantisatieaanvallen

Distillatiegebaseerde extractie

Leerpad

Gerelateerde artikelen

Aanvalsvectoren op modelarchitectuur

MoE-routingmanipulatie

KV-cache-vergiftiging

Exploitatie van het contextvenster

Aanvallen op inferentieoptimalisatie

Quantisatieaanvallen

Distillatiegebaseerde extractie

Leerpad

Gerelateerde artikelen