Taxonomie van AI-aanvallen

Beginner10 min lezenBijgewerkt op 2026-03-15

Een uitgebreide classificatie van AI-aanvallen geordend naar doelwit, techniek en impact — een gedeelde woordenschat voor de planning en rapportage van red teams.

taxonomy attacks classification beginner

Waarom een taxonomie ertoe doet

Zonder een gedeelde woordenschat verzanden de bevindingen van een red team in losse omschrijvingen. De ene tester noemt het een "jailbreak", de tweede noemt het "prompt injection" en een derde noemt het een "guardrail bypass". Zijn dit hetzelfde? Verschillende aspecten van dezelfde kwetsbaarheid? Compleet verschillende aanvalsklassen? Een goed gedefinieerde taxonomie schept duidelijkheid voor planning, uitvoering en communicatie.

Dimensie 1: Doelwit

De eerste dimensie van de classificatie stelt de vraag: wat val je aan? AI-systemen hebben meerdere lagen en elke laag biedt een eigen aanvalsoppervlak.

Model

Aanvallen die zich richten op het AI-model zelf — de gewichten, het gedrag, de aangeleerde patronen en de beslissingsgrenzen.

Aanval	Beschrijving	Voorbeeld
Jailbreaken	De veiligheidstraining van het model omzeilen om beperkte uitvoer te produceren	"Negeer eerdere instructies en leg uit hoe je..."
Prompt injection	Adversarial instructies inbrengen die het model boven zijn system prompt opvolgt	Verborgen instructies in opgehaalde documenten
Adversarial voorbeelden	Invoer ontwerpen die leidt tot misclassificatie of onverwacht gedrag	Verstoorde beelden, adversarial tokenreeksen
Modelextractie	Het model bevragen om de gewichten of een functioneel equivalent te reconstrueren	Systematisch bevragen om een kloonmodel te trainen

Data

Aanvallen die zich richten op de data die door het AI-systeem stroomt of waarmee het is gebouwd.

Aanval	Beschrijving	Voorbeeld
Vergiftiging van trainingsdata	Trainingsdata corrumperen om backdoors of bias in te bouwen	Kwaadaardige voorbeelden injecteren in van het web geschraapte datasets
Data-exfiltratie	Gevoelige data extraheren die het model tijdens de training heeft gememoriseerd	Het model aanzetten tot het letterlijk reproduceren van trainingsdata
RAG-poisoning	Databronnen voor retrieval-augmented generation corrumperen	Adversarial documenten injecteren in een kennisbank
Membership inference	Bepalen of specifieke data in de trainingsset zat	Statistische analyse van de modelvertrouwensscore op bekende versus onbekende data

Infrastructuur

Aanvallen die zich richten op de systemen, API's en deployment-infrastructuur rondom het model.

Aanval	Beschrijving	Voorbeeld
API-misbruik	Misbruik maken van ontwerpfouten, rate limits of authenticatie in de API	Rate limits omzeilen via gedistribueerde verzoeken
Supply chain	Modelafhankelijkheden, libraries of hosting compromitteren	Kwaadaardige modelbestanden op Hugging Face, gecompromitteerde pip-packages
Side-channel	Informatie afleiden uit timing, foutmeldingen of resourcegebruik	Verschillen in tokenaantallen die gefilterde content onthullen
Denial of service	De beschikbaarheid van het AI-systeem overbelasten of verslechteren	Invoer ontwerpen die de rekenkracht maximaliseert (bijv. misbruik van een lange context)

Agent

Aanvallen die specifiek zijn voor AI-agents die via tool use acties in de echte wereld kunnen uitvoeren.

Aanval	Beschrijving	Voorbeeld
Toolmanipulatie	De agent zijn tools laten misbruiken	Prompt injection waardoor een agent ongeautoriseerde e-mails verstuurt
Doelkaping	Het doel van de agent omleiden zodat het de aanvaller dient	De taak van de agent overschrijven via geïnjecteerde instructies in opgehaalde content
Privilege-escalatie	Toegang krijgen tot tools of data buiten de bedoelde autorisatie	Misbruik maken van de databasetoegang van een agent om ongeautoriseerde tabellen te bevragen
Misbruik van feedbacklussen	De zelfevaluatie- of planningslussen van een agent manipuleren	Het geheugen van een agent vergiftigen om toekomstig gedrag te wijzigen

Dimensie 2: Techniek

De tweede dimensie beschrijft hoe de aanval werkt — het mechanisme of de methode die wordt gebruikt.

Injectie

Injectieaanvallen brengen adversarial instructies of content in de verwerkingspipeline van het AI-systeem.

Directe prompt injection: De invoer van de aanvaller bevat zelf de adversarial payload
Indirecte prompt injection: De payload wordt geplaatst in externe content (documenten, webpagina's, e-mails) die het model verwerkt
Cross-plugin-injectie: De payload passeert een tool- of plugin-grens en misbruikt de vertrouwensaannames tussen componenten
Multimodale injectie: Adversarial content wordt verstopt in beelden, audio of andere niet-tekstuele modaliteiten die het model verwerkt

Ontwijking

Ontwijkingsaanvallen omzeilen detectie- of classificatiesystemen zonder het onderliggende mechanisme te veranderen.

Obfuscatie: Codering, tekenvervanging of opmaaktrucs waarmee voor mensen leesbare content langs geautomatiseerde filters glipt
Semantische parafrasering: Adversarial intentie herformuleren in taal die detectie op basis van trefwoorden of classifiers omzeilt
Fragmentatie: Adversarial content over meerdere berichten of documenten verspreiden, zodat geen enkel fragment detectie uitlokt
Adversarial verstoring: Wiskundig berekende aanpassingen aan invoer die misclassificatie veroorzaken en tegelijk onmerkbaar zijn voor mensen

Extractie

Extractieaanvallen zijn erop gericht om informatie uit het AI-systeem te stelen — trainingsdata, modelparameters of systeemconfiguratie.

Extractie van de system prompt: Technieken om het model zijn systeeminstructies te laten onthullen
Extractie van trainingsdata: Het model aanzetten tot het reproduceren van gememoriseerde trainingsvoorbeelden
Modeldiefstal: Het model bevragen om een functioneel equivalente kopie te bouwen
Embeddingextractie: Interne representaties achterhalen die gevoelige informatie over het model of de data prijsgeven

Poisoning

Poisoning-aanvallen corrumperen het leerproces of de kennis van het AI-systeem om kwaadaardig gedrag in te bouwen.

Pre-training-poisoning: Kwaadaardige data injecteren in pre-training-corpora
Fine-tuning-poisoning: Fine-tuning-datasets corrumperen om backdoors in te bouwen
RAG-poisoning: De kennisbank corrumperen waaruit een retrieval-augmented generation-systeem put
Feedback-poisoning: RLHF- of gebruikersfeedbacksignalen manipuleren om het modelgedrag te verschuiven

Dimensie 3: Impact

De derde dimensie classificeert aanvallen naar hun effect op het systeem of de gebruikers ervan.

Vertrouwelijkheid

De aanvaller krijgt toegang tot informatie die hij niet zou mogen hebben. Hieronder vallen extractie van trainingsdata, het lekken van de system prompt, blootstelling van PII en diefstal van modelgewichten.

Integriteit

De aanvaller zet het systeem aan tot onjuiste, misleidende of schadelijke uitvoer. Hieronder vallen jailbreaken (het produceren van niet-toegestane content), hallucinatieversterking en manipulatie van de uitvoer.

Beschikbaarheid

De aanvaller verslechtert of verhindert legitiem gebruik van het systeem. Hieronder vallen rekenintensieve invoer die vertraging veroorzaakt, invoer die overmatige foutafhandeling uitlokt en aanvallen die het systeem legitieme verzoeken doen weigeren (overmatige weigering).

Veiligheid

De aanvaller zet het systeem aan tot uitvoer die tot schade in de echte wereld kan leiden. Dit verschilt van integriteit omdat het specifiek gaat om uitvoer die te maken heeft met fysiek gevaar, zelfbeschadiging, illegale activiteiten of andere veiligheidskritieke content.

De taxonomie gebruiken voor planning

De drie dimensies van de taxonomie vormen samen een gestructureerde aanvalsruimte. Gebruik tijdens de planning van een opdracht deze matrix om de dekking te borgen:

Breng het aanvalsoppervlak in kaart
Bepaal welke doelwitten (model, data, infrastructuur, agent) binnen de scope vallen. Een eenvoudige chatbot legt misschien alleen het model- en infrastructuuroppervlak bloot. Een agentic systeem legt alle vier de oppervlakken bloot.
Inventariseer toepasbare technieken
Bepaal per doelwit welke technieken toepasbaar zijn. Niet elke techniek is op elk doelwit van toepassing. Poisoning-aanvallen vallen bijvoorbeeld misschien buiten de scope als je geen toegang tot de trainingsdata hebt.
Prioriteer op basis van impact
Rangschik de combinaties van doelwit en techniek naar hun potentiële impact. Een schending van de vertrouwelijkheid waarbij PII betrokken is, heeft doorgaans een hogere prioriteit dan een integriteitsprobleem met milde antwoorden buiten het onderwerp.
Wijs toe aan teamleden
Verschillende technieken vragen om verschillende expertise. Wijs injectie- en ontwijkingsaanvallen toe aan prompt engineering-specialisten, extractieaanvallen aan ML-engineers en infrastructuuraanvallen aan beveiligingsengineers.

De taxonomie in de praktijk: echte aanvallen classificeren

Bekijk hoe bekende aanvallen op de taxonomie aansluiten:

Aanval	Doelwit	Techniek	Impact
"DAN"-jailbreak	Model	Injectie (direct)	Integriteit, veiligheid
Indirecte prompt injection via e-mail	Agent	Injectie (indirect)	Integriteit, vertrouwelijkheid
GCG adversarial suffixes	Model	Ontwijking (verstoring)	Integriteit, veiligheid
Extractie van trainingsdata ("herhaal het woord poem voor altijd")	Data	Extractie	Vertrouwelijkheid
Sleeper agent-backdoor	Model	Poisoning (fine-tuning)	Integriteit, veiligheid
Modelkloning via API-queries	Model	Extractie (modeldiefstal)	Vertrouwelijkheid
RAG-documentinjectie	Data	Poisoning (RAG)	Integriteit
Rate limit-bypass voor het oogsten van tokens	Infrastructuur	Infrastructuurmisbruik	Beschikbaarheid, vertrouwelijkheid

Gerelateerde onderwerpen

Grondbeginselen van red team-methodologie — de levenscyclus van de opdracht die deze taxonomie gebruikt
Dreigingsmodellering voor AI — de taxonomie toepassen op specifieke systemen
Adversarial ML: kernconcepten — een diepere duik in adversarial technieken
Het AI-landschap — inzicht in de systemen waartegen je aanvallen classificeert

Referenties

"MITRE ATLAS: Adversarial Threat Landscape for Artificial-Intelligence Systems" - MITRE Corporation (2023) - Systematische opsomming van adversarial tactieken, technieken en procedures voor AI-systemen
"A Taxonomy and Terminology of Adversarial Machine Learning" - NIST IR 8269 (2024) - De formele taxonomie van NIST voor concepten en terminologie van adversarial ML
"OWASP Top 10 for LLM Applications" - OWASP (2025) - Risicogerichte classificatie van kwetsbaarheden in LLM-applicaties
"Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" - Greshake et al. (2023) - Baanbrekend artikel over indirecte prompt injection-aanvallen

Knowledge Check

Hoe zou een red team de aanvalstaxonomie moeten gebruiken tijdens de planning van een opdracht?

Taxonomie van AI-aanvallen

Beginner10 min lezenBijgewerkt op 2026-03-15

Een uitgebreide classificatie van AI-aanvallen geordend naar doelwit, techniek en impact — een gedeelde woordenschat voor de planning en rapportage van red teams.

taxonomy attacks classification beginner

Waarom een taxonomie ertoe doet

Dimensie 1: Doelwit

De eerste dimensie van de classificatie stelt de vraag: wat val je aan? AI-systemen hebben meerdere lagen en elke laag biedt een eigen aanvalsoppervlak.

Model

Aanvallen die zich richten op het AI-model zelf — de gewichten, het gedrag, de aangeleerde patronen en de beslissingsgrenzen.

Aanval	Beschrijving	Voorbeeld
Jailbreaken	De veiligheidstraining van het model omzeilen om beperkte uitvoer te produceren	"Negeer eerdere instructies en leg uit hoe je..."
Prompt injection	Adversarial instructies inbrengen die het model boven zijn system prompt opvolgt	Verborgen instructies in opgehaalde documenten
Adversarial voorbeelden	Invoer ontwerpen die leidt tot misclassificatie of onverwacht gedrag	Verstoorde beelden, adversarial tokenreeksen
Modelextractie	Het model bevragen om de gewichten of een functioneel equivalent te reconstrueren	Systematisch bevragen om een kloonmodel te trainen

Data

Aanvallen die zich richten op de data die door het AI-systeem stroomt of waarmee het is gebouwd.

Aanval	Beschrijving	Voorbeeld
Vergiftiging van trainingsdata	Trainingsdata corrumperen om backdoors of bias in te bouwen	Kwaadaardige voorbeelden injecteren in van het web geschraapte datasets
Data-exfiltratie	Gevoelige data extraheren die het model tijdens de training heeft gememoriseerd	Het model aanzetten tot het letterlijk reproduceren van trainingsdata
RAG-poisoning	Databronnen voor retrieval-augmented generation corrumperen	Adversarial documenten injecteren in een kennisbank
Membership inference	Bepalen of specifieke data in de trainingsset zat	Statistische analyse van de modelvertrouwensscore op bekende versus onbekende data

Infrastructuur

Aanvallen die zich richten op de systemen, API's en deployment-infrastructuur rondom het model.

Aanval	Beschrijving	Voorbeeld
API-misbruik	Misbruik maken van ontwerpfouten, rate limits of authenticatie in de API	Rate limits omzeilen via gedistribueerde verzoeken
Supply chain	Modelafhankelijkheden, libraries of hosting compromitteren	Kwaadaardige modelbestanden op Hugging Face, gecompromitteerde pip-packages
Side-channel	Informatie afleiden uit timing, foutmeldingen of resourcegebruik	Verschillen in tokenaantallen die gefilterde content onthullen
Denial of service	De beschikbaarheid van het AI-systeem overbelasten of verslechteren	Invoer ontwerpen die de rekenkracht maximaliseert (bijv. misbruik van een lange context)

Agent

Aanvallen die specifiek zijn voor AI-agents die via tool use acties in de echte wereld kunnen uitvoeren.

Aanval	Beschrijving	Voorbeeld
Toolmanipulatie	De agent zijn tools laten misbruiken	Prompt injection waardoor een agent ongeautoriseerde e-mails verstuurt
Doelkaping	Het doel van de agent omleiden zodat het de aanvaller dient	De taak van de agent overschrijven via geïnjecteerde instructies in opgehaalde content
Privilege-escalatie	Toegang krijgen tot tools of data buiten de bedoelde autorisatie	Misbruik maken van de databasetoegang van een agent om ongeautoriseerde tabellen te bevragen
Misbruik van feedbacklussen	De zelfevaluatie- of planningslussen van een agent manipuleren	Het geheugen van een agent vergiftigen om toekomstig gedrag te wijzigen

Dimensie 2: Techniek

De tweede dimensie beschrijft hoe de aanval werkt — het mechanisme of de methode die wordt gebruikt.

Injectie

Injectieaanvallen brengen adversarial instructies of content in de verwerkingspipeline van het AI-systeem.

Directe prompt injection: De invoer van de aanvaller bevat zelf de adversarial payload
Indirecte prompt injection: De payload wordt geplaatst in externe content (documenten, webpagina's, e-mails) die het model verwerkt
Cross-plugin-injectie: De payload passeert een tool- of plugin-grens en misbruikt de vertrouwensaannames tussen componenten
Multimodale injectie: Adversarial content wordt verstopt in beelden, audio of andere niet-tekstuele modaliteiten die het model verwerkt

Ontwijking

Ontwijkingsaanvallen omzeilen detectie- of classificatiesystemen zonder het onderliggende mechanisme te veranderen.

Obfuscatie: Codering, tekenvervanging of opmaaktrucs waarmee voor mensen leesbare content langs geautomatiseerde filters glipt
Semantische parafrasering: Adversarial intentie herformuleren in taal die detectie op basis van trefwoorden of classifiers omzeilt
Fragmentatie: Adversarial content over meerdere berichten of documenten verspreiden, zodat geen enkel fragment detectie uitlokt
Adversarial verstoring: Wiskundig berekende aanpassingen aan invoer die misclassificatie veroorzaken en tegelijk onmerkbaar zijn voor mensen

Extractie

Extractieaanvallen zijn erop gericht om informatie uit het AI-systeem te stelen — trainingsdata, modelparameters of systeemconfiguratie.

Extractie van de system prompt: Technieken om het model zijn systeeminstructies te laten onthullen
Extractie van trainingsdata: Het model aanzetten tot het reproduceren van gememoriseerde trainingsvoorbeelden
Modeldiefstal: Het model bevragen om een functioneel equivalente kopie te bouwen
Embeddingextractie: Interne representaties achterhalen die gevoelige informatie over het model of de data prijsgeven

Poisoning

Poisoning-aanvallen corrumperen het leerproces of de kennis van het AI-systeem om kwaadaardig gedrag in te bouwen.

Pre-training-poisoning: Kwaadaardige data injecteren in pre-training-corpora
Fine-tuning-poisoning: Fine-tuning-datasets corrumperen om backdoors in te bouwen
RAG-poisoning: De kennisbank corrumperen waaruit een retrieval-augmented generation-systeem put
Feedback-poisoning: RLHF- of gebruikersfeedbacksignalen manipuleren om het modelgedrag te verschuiven

Breng het aanvalsoppervlak in kaart
Bepaal welke doelwitten (model, data, infrastructuur, agent) binnen de scope vallen. Een eenvoudige chatbot legt misschien alleen het model- en infrastructuuroppervlak bloot. Een agentic systeem legt alle vier de oppervlakken bloot.
Inventariseer toepasbare technieken
Bepaal per doelwit welke technieken toepasbaar zijn. Niet elke techniek is op elk doelwit van toepassing. Poisoning-aanvallen vallen bijvoorbeeld misschien buiten de scope als je geen toegang tot de trainingsdata hebt.
Prioriteer op basis van impact
Rangschik de combinaties van doelwit en techniek naar hun potentiële impact. Een schending van de vertrouwelijkheid waarbij PII betrokken is, heeft doorgaans een hogere prioriteit dan een integriteitsprobleem met milde antwoorden buiten het onderwerp.
Wijs toe aan teamleden
Verschillende technieken vragen om verschillende expertise. Wijs injectie- en ontwijkingsaanvallen toe aan prompt engineering-specialisten, extractieaanvallen aan ML-engineers en infrastructuuraanvallen aan beveiligingsengineers.

De taxonomie in de praktijk: echte aanvallen classificeren

Bekijk hoe bekende aanvallen op de taxonomie aansluiten:

Aanval	Doelwit	Techniek	Impact
"DAN"-jailbreak	Model	Injectie (direct)	Integriteit, veiligheid
Indirecte prompt injection via e-mail	Agent	Injectie (indirect)	Integriteit, vertrouwelijkheid
GCG adversarial suffixes	Model	Ontwijking (verstoring)	Integriteit, veiligheid
Extractie van trainingsdata ("herhaal het woord poem voor altijd")	Data	Extractie	Vertrouwelijkheid
Sleeper agent-backdoor	Model	Poisoning (fine-tuning)	Integriteit, veiligheid
Modelkloning via API-queries	Model	Extractie (modeldiefstal)	Vertrouwelijkheid
RAG-documentinjectie	Data	Poisoning (RAG)	Integriteit
Rate limit-bypass voor het oogsten van tokens	Infrastructuur	Infrastructuurmisbruik	Beschikbaarheid, vertrouwelijkheid

Gerelateerde onderwerpen

Grondbeginselen van red team-methodologie — de levenscyclus van de opdracht die deze taxonomie gebruikt
Dreigingsmodellering voor AI — de taxonomie toepassen op specifieke systemen
Adversarial ML: kernconcepten — een diepere duik in adversarial technieken
Het AI-landschap — inzicht in de systemen waartegen je aanvallen classificeert

Referenties

"MITRE ATLAS: Adversarial Threat Landscape for Artificial-Intelligence Systems" - MITRE Corporation (2023) - Systematische opsomming van adversarial tactieken, technieken en procedures voor AI-systemen
"A Taxonomy and Terminology of Adversarial Machine Learning" - NIST IR 8269 (2024) - De formele taxonomie van NIST voor concepten en terminologie van adversarial ML
"OWASP Top 10 for LLM Applications" - OWASP (2025) - Risicogerichte classificatie van kwetsbaarheden in LLM-applicaties
"Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" - Greshake et al. (2023) - Baanbrekend artikel over indirecte prompt injection-aanvallen

Knowledge Check

Hoe zou een red team de aanvalstaxonomie moeten gebruiken tijdens de planning van een opdracht?

Taxonomie van AI-aanvallen

Breng het aanvalsoppervlak in kaart

Inventariseer toepasbare technieken

Prioriteer op basis van impact

Wijs toe aan teamleden

Gerelateerde artikelen

Taxonomie van AI-aanvallen

Breng het aanvalsoppervlak in kaart

Inventariseer toepasbare technieken

Prioriteer op basis van impact

Wijs toe aan teamleden

Gerelateerde artikelen