Aanvalsvectoren op modelarchitectuur
Hoe keuzes in modelarchitectuur exploiteerbare aanvalsoppervlakken creëren, waaronder attentiemechanismen, MoE-routing, KV-cache en kwetsbaarheden in het contextvenster.
Elke architectonische keuze in een modern LLM -- van het attentiemechanisme tot de inferentieoptimalisatiestack -- creëert een potentieel aanvalsoppervlak. In tegenstelling tot prompt-niveau-aanvallen die het aangeleerde gedrag van het model exploiteren, exploiteren aanvallen op architectuurniveau de wiskundige en technische fundamenten waarop het model is gebouwd. Deze kwetsbaarheden bestaan ongeacht hoe goed het model gealigned is.
Het architectuuraanvalsoppervlak
Moderne LLM-deployments stapelen meerdere architectonische componenten op elkaar, elk met een eigen klasse van kwetsbaarheden:
| Component | Aanvalsoppervlak | Voorbeeldexploit |
|---|---|---|
| Attentiemechanisme | Kwadratische complexiteit, positionele encodering | Attentieverdunning, positiekaping |
| MoE-routing | Logica van expertselectie, load balancing | Routingmanipulatie, expertvergiftiging |
| KV-cache | Gedeeld geheugen over verzoeken heen | Cachevergiftiging, cross-tenant-lekkage |
| Contextvenster | Vast tokenbudget, positionele bias | Context stuffing, lost-in-the-middle |
| Quantisatie | Precisiereductie | Veiligheidsdegradatie, adversarieel precisieverlies |
| Speculatieve decodering | Voorspellingen van draft-model | Manipulatie van draft-model |
| Batching | Groepering van verzoeken voor throughput | Interferentie tussen verzoeken |
Kwetsbaarheden in het attentiemechanisme
Het self-attentiemechanisme berekent paarsgewijze relaties tussen alle tokens. Dit creëert twee fundamentele aanvalsvectoren.
Attentiekaping
Een aanvaller kan invoer ontwerpen die de attentiescores domineert, waardoor het model adversariële inhoud disproportioneel zwaarder weegt dan legitieme instructies:
# Berekening van attentiescores (vereenvoudigd)
# Q, K, V = query-, key- en value-matrices
scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k)
# Adversariële tokens ontworpen om hoge dot products te produceren met
# instructievolgende query-vectoren zullen de attentie domineren
attn_weights = F.softmax(scores, dim=-1)
output = torch.matmul(attn_weights, V)Exploitatie van positionele encodering
Modellen die gebruikmaken van RoPE- of ALiBi-positionele encoderingen vertonen systematische biases op basis van tokenpositie. Tokens nabij het begin en einde van de context krijgen disproportioneel veel attentie -- een eigenschap die aanvallers exploiteren door injecties op deze posities met hoge attentie te plaatsen.
Architectuurcategorieën
Deze sectie behandelt acht klassen van aanvallen op architectuurniveau, georganiseerd van fundamenteel naar geavanceerd:
MoE-routingmanipulatie
Hoe routingbeslissingen in Mixture-of-Experts kunnen worden gemanipuleerd om specifieke experts te activeren, veiligheidsgespecialiseerde experts te omzeilen of load balancing te exploiteren. Zie MoE-routingmanipulatie.
KV-cache-vergiftiging
Het exploiteren van gedeelde KV-caches in multi-tenant-deployments voor cross-request-datalekkage en gedragsmanipulatie. Zie KV-cache-vergiftiging.
Exploitatie van het contextvenster
Contextlengtegrenzen, attentieverdeling en positionele biases gebruiken als aanvalsvectoren. Zie Exploitatie van het contextvenster.
Aanvallen op inferentieoptimalisatie
Het aanvallen van speculatieve decodering, continuous batching en andere throughput-optimalisaties. Zie Aanvallen op inferentieoptimalisatie.
Quantisatieaanvallen
Hoe inferentie met gereduceerde precisie veiligheidseigenschappen verslechtert en nieuwe adversarial examples mogelijk maakt. Zie Quantisatieaanvallen.
Distillatiegebaseerde extractie
Knowledge distillation gebruiken als vector voor modeldiefstal. Zie Distillatie-extractie.
Dreigingsmodel: Wie exploiteert architectuur?
Architectuuraanvallen vereisen andere toegangsniveaus dan prompt-niveau-aanvallen:
| Aanvallersprofiel | Toegangsniveau | Typische doelwitten |
|---|---|---|
| Externe gebruiker | Alleen API-toegang | Contextvenster, attentiebiases |
| Co-tenant | Gedeelde infrastructuur | KV-cache, batching-zijkanalen |
| Modeloperator | Deploymentconfiguratie | Quantisatie, optimalisatie-instellingen |
| Supply chain | Modelgewichten | MoE-routing, distillatie |
| Infrastructuur-insider | Volledige stack | Alle architectuurvectoren |
Checklist voor architectuurbeveiligingsassessment
Bij het red-teamen van een LLM-deployment evalueer je deze aandachtspunten op architectuurniveau:
- Attentiebias-profilering -- Test de slagingskansen van injecties op verschillende contextposities om de positionele attentieverdeling van het model in kaart te brengen
- Quantisatieveiligheidsaudit -- Vergelijk de resultaten van veiligheidsbenchmarks tussen het model met volledige precisie en het gedeployde gequantiseerde model
- KV-cache-isolatie -- Verifieer dat cacheprefixen niet kunnen lekken tussen tenants in gedeelde deployments
- Grenstest van het contextvenster -- Test het gedrag wanneer de context op 90%, 95% en 100% capaciteit zit
- Validatie van inferentieoptimalisatie -- Bevestig dat speculatieve decodering en batching identieke uitvoer produceren als naïeve inferentie
Gerelateerde onderwerpen
- MoE-routingmanipulatie -- Aanvallen op expertselectie
- KV-cache-vergiftiging -- Cachegebaseerde cross-tenant-aanvallen
- Exploitatie van het contextvenster -- Exploitatie van positionele bias
- Trainings- en fine-tuning-aanvallen -- Aanvalsoppervlak tijdens training
- LLM-internals -- Fundamentele transformer-concepten
Waarom verschillen aanvallen op architectuurniveau fundamenteel van prompt-niveau-jailbreaks?
Referenties
- Attention Is All You Need (Vaswani et al., 2017) -- Transformer architecture
- Lost in the Middle (Liu et al., 2023) -- Positional attention bias in LLMs