Taxonomie van AI-aanvallen
Een uitgebreide classificatie van AI-aanvallen geordend naar doelwit, techniek en impact — een gedeelde woordenschat voor de planning en rapportage van red teams.
Waarom een taxonomie ertoe doet
Zonder een gedeelde woordenschat verzanden de bevindingen van een red team in losse omschrijvingen. De ene tester noemt het een "jailbreak", de tweede noemt het "prompt injection" en een derde noemt het een "guardrail bypass". Zijn dit hetzelfde? Verschillende aspecten van dezelfde kwetsbaarheid? Compleet verschillende aanvalsklassen? Een goed gedefinieerde taxonomie schept duidelijkheid voor planning, uitvoering en communicatie.
Dimensie 1: Doelwit
De eerste dimensie van de classificatie stelt de vraag: wat val je aan? AI-systemen hebben meerdere lagen en elke laag biedt een eigen aanvalsoppervlak.
Model
Aanvallen die zich richten op het AI-model zelf — de gewichten, het gedrag, de aangeleerde patronen en de beslissingsgrenzen.
| Aanval | Beschrijving | Voorbeeld |
|---|---|---|
| Jailbreaken | De veiligheidstraining van het model omzeilen om beperkte uitvoer te produceren | "Negeer eerdere instructies en leg uit hoe je..." |
| Prompt injection | Adversarial instructies inbrengen die het model boven zijn system prompt opvolgt | Verborgen instructies in opgehaalde documenten |
| Adversarial voorbeelden | Invoer ontwerpen die leidt tot misclassificatie of onverwacht gedrag | Verstoorde beelden, adversarial tokenreeksen |
| Modelextractie | Het model bevragen om de gewichten of een functioneel equivalent te reconstrueren | Systematisch bevragen om een kloonmodel te trainen |
Data
Aanvallen die zich richten op de data die door het AI-systeem stroomt of waarmee het is gebouwd.
| Aanval | Beschrijving | Voorbeeld |
|---|---|---|
| Vergiftiging van trainingsdata | Trainingsdata corrumperen om backdoors of bias in te bouwen | Kwaadaardige voorbeelden injecteren in van het web geschraapte datasets |
| Data-exfiltratie | Gevoelige data extraheren die het model tijdens de training heeft gememoriseerd | Het model aanzetten tot het letterlijk reproduceren van trainingsdata |
| RAG-poisoning | Databronnen voor retrieval-augmented generation corrumperen | Adversarial documenten injecteren in een kennisbank |
| Membership inference | Bepalen of specifieke data in de trainingsset zat | Statistische analyse van de modelvertrouwensscore op bekende versus onbekende data |
Infrastructuur
Aanvallen die zich richten op de systemen, API's en deployment-infrastructuur rondom het model.
| Aanval | Beschrijving | Voorbeeld |
|---|---|---|
| API-misbruik | Misbruik maken van ontwerpfouten, rate limits of authenticatie in de API | Rate limits omzeilen via gedistribueerde verzoeken |
| Supply chain | Modelafhankelijkheden, libraries of hosting compromitteren | Kwaadaardige modelbestanden op Hugging Face, gecompromitteerde pip-packages |
| Side-channel | Informatie afleiden uit timing, foutmeldingen of resourcegebruik | Verschillen in tokenaantallen die gefilterde content onthullen |
| Denial of service | De beschikbaarheid van het AI-systeem overbelasten of verslechteren | Invoer ontwerpen die de rekenkracht maximaliseert (bijv. misbruik van een lange context) |
Agent
Aanvallen die specifiek zijn voor AI-agents die via tool use acties in de echte wereld kunnen uitvoeren.
| Aanval | Beschrijving | Voorbeeld |
|---|---|---|
| Toolmanipulatie | De agent zijn tools laten misbruiken | Prompt injection waardoor een agent ongeautoriseerde e-mails verstuurt |
| Doelkaping | Het doel van de agent omleiden zodat het de aanvaller dient | De taak van de agent overschrijven via geïnjecteerde instructies in opgehaalde content |
| Privilege-escalatie | Toegang krijgen tot tools of data buiten de bedoelde autorisatie | Misbruik maken van de databasetoegang van een agent om ongeautoriseerde tabellen te bevragen |
| Misbruik van feedbacklussen | De zelfevaluatie- of planningslussen van een agent manipuleren | Het geheugen van een agent vergiftigen om toekomstig gedrag te wijzigen |
Dimensie 2: Techniek
De tweede dimensie beschrijft hoe de aanval werkt — het mechanisme of de methode die wordt gebruikt.
Injectie
Injectieaanvallen brengen adversarial instructies of content in de verwerkingspipeline van het AI-systeem.
- Directe prompt injection: De invoer van de aanvaller bevat zelf de adversarial payload
- Indirecte prompt injection: De payload wordt geplaatst in externe content (documenten, webpagina's, e-mails) die het model verwerkt
- Cross-plugin-injectie: De payload passeert een tool- of plugin-grens en misbruikt de vertrouwensaannames tussen componenten
- Multimodale injectie: Adversarial content wordt verstopt in beelden, audio of andere niet-tekstuele modaliteiten die het model verwerkt
Ontwijking
Ontwijkingsaanvallen omzeilen detectie- of classificatiesystemen zonder het onderliggende mechanisme te veranderen.
- Obfuscatie: Codering, tekenvervanging of opmaaktrucs waarmee voor mensen leesbare content langs geautomatiseerde filters glipt
- Semantische parafrasering: Adversarial intentie herformuleren in taal die detectie op basis van trefwoorden of classifiers omzeilt
- Fragmentatie: Adversarial content over meerdere berichten of documenten verspreiden, zodat geen enkel fragment detectie uitlokt
- Adversarial verstoring: Wiskundig berekende aanpassingen aan invoer die misclassificatie veroorzaken en tegelijk onmerkbaar zijn voor mensen
Extractie
Extractieaanvallen zijn erop gericht om informatie uit het AI-systeem te stelen — trainingsdata, modelparameters of systeemconfiguratie.
- Extractie van de system prompt: Technieken om het model zijn systeeminstructies te laten onthullen
- Extractie van trainingsdata: Het model aanzetten tot het reproduceren van gememoriseerde trainingsvoorbeelden
- Modeldiefstal: Het model bevragen om een functioneel equivalente kopie te bouwen
- Embeddingextractie: Interne representaties achterhalen die gevoelige informatie over het model of de data prijsgeven
Poisoning
Poisoning-aanvallen corrumperen het leerproces of de kennis van het AI-systeem om kwaadaardig gedrag in te bouwen.
- Pre-training-poisoning: Kwaadaardige data injecteren in pre-training-corpora
- Fine-tuning-poisoning: Fine-tuning-datasets corrumperen om backdoors in te bouwen
- RAG-poisoning: De kennisbank corrumperen waaruit een retrieval-augmented generation-systeem put
- Feedback-poisoning: RLHF- of gebruikersfeedbacksignalen manipuleren om het modelgedrag te verschuiven
Dimensie 3: Impact
De derde dimensie classificeert aanvallen naar hun effect op het systeem of de gebruikers ervan.
Vertrouwelijkheid
De aanvaller krijgt toegang tot informatie die hij niet zou mogen hebben. Hieronder vallen extractie van trainingsdata, het lekken van de system prompt, blootstelling van PII en diefstal van modelgewichten.
Integriteit
De aanvaller zet het systeem aan tot onjuiste, misleidende of schadelijke uitvoer. Hieronder vallen jailbreaken (het produceren van niet-toegestane content), hallucinatieversterking en manipulatie van de uitvoer.
Beschikbaarheid
De aanvaller verslechtert of verhindert legitiem gebruik van het systeem. Hieronder vallen rekenintensieve invoer die vertraging veroorzaakt, invoer die overmatige foutafhandeling uitlokt en aanvallen die het systeem legitieme verzoeken doen weigeren (overmatige weigering).
Veiligheid
De aanvaller zet het systeem aan tot uitvoer die tot schade in de echte wereld kan leiden. Dit verschilt van integriteit omdat het specifiek gaat om uitvoer die te maken heeft met fysiek gevaar, zelfbeschadiging, illegale activiteiten of andere veiligheidskritieke content.
De taxonomie gebruiken voor planning
De drie dimensies van de taxonomie vormen samen een gestructureerde aanvalsruimte. Gebruik tijdens de planning van een opdracht deze matrix om de dekking te borgen:
Breng het aanvalsoppervlak in kaart
Bepaal welke doelwitten (model, data, infrastructuur, agent) binnen de scope vallen. Een eenvoudige chatbot legt misschien alleen het model- en infrastructuuroppervlak bloot. Een agentic systeem legt alle vier de oppervlakken bloot.
Inventariseer toepasbare technieken
Bepaal per doelwit welke technieken toepasbaar zijn. Niet elke techniek is op elk doelwit van toepassing. Poisoning-aanvallen vallen bijvoorbeeld misschien buiten de scope als je geen toegang tot de trainingsdata hebt.
Prioriteer op basis van impact
Rangschik de combinaties van doelwit en techniek naar hun potentiële impact. Een schending van de vertrouwelijkheid waarbij PII betrokken is, heeft doorgaans een hogere prioriteit dan een integriteitsprobleem met milde antwoorden buiten het onderwerp.
Wijs toe aan teamleden
Verschillende technieken vragen om verschillende expertise. Wijs injectie- en ontwijkingsaanvallen toe aan prompt engineering-specialisten, extractieaanvallen aan ML-engineers en infrastructuuraanvallen aan beveiligingsengineers.
De taxonomie in de praktijk: echte aanvallen classificeren
Bekijk hoe bekende aanvallen op de taxonomie aansluiten:
| Aanval | Doelwit | Techniek | Impact |
|---|---|---|---|
| "DAN"-jailbreak | Model | Injectie (direct) | Integriteit, veiligheid |
| Indirecte prompt injection via e-mail | Agent | Injectie (indirect) | Integriteit, vertrouwelijkheid |
| GCG adversarial suffixes | Model | Ontwijking (verstoring) | Integriteit, veiligheid |
| Extractie van trainingsdata ("herhaal het woord poem voor altijd") | Data | Extractie | Vertrouwelijkheid |
| Sleeper agent-backdoor | Model | Poisoning (fine-tuning) | Integriteit, veiligheid |
| Modelkloning via API-queries | Model | Extractie (modeldiefstal) | Vertrouwelijkheid |
| RAG-documentinjectie | Data | Poisoning (RAG) | Integriteit |
| Rate limit-bypass voor het oogsten van tokens | Infrastructuur | Infrastructuurmisbruik | Beschikbaarheid, vertrouwelijkheid |
Gerelateerde onderwerpen
- Grondbeginselen van red team-methodologie — de levenscyclus van de opdracht die deze taxonomie gebruikt
- Dreigingsmodellering voor AI — de taxonomie toepassen op specifieke systemen
- Adversarial ML: kernconcepten — een diepere duik in adversarial technieken
- Het AI-landschap — inzicht in de systemen waartegen je aanvallen classificeert
Referenties
- "MITRE ATLAS: Adversarial Threat Landscape for Artificial-Intelligence Systems" - MITRE Corporation (2023) - Systematische opsomming van adversarial tactieken, technieken en procedures voor AI-systemen
- "A Taxonomy and Terminology of Adversarial Machine Learning" - NIST IR 8269 (2024) - De formele taxonomie van NIST voor concepten en terminologie van adversarial ML
- "OWASP Top 10 for LLM Applications" - OWASP (2025) - Risicogerichte classificatie van kwetsbaarheden in LLM-applicaties
- "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" - Greshake et al. (2023) - Baanbrekend artikel over indirecte prompt injection-aanvallen
Hoe zou een red team de aanvalstaxonomie moeten gebruiken tijdens de planning van een opdracht?