Taxonomie van AI-verdedigingen

Beginner9 min lezenBijgewerkt op 2026-03-15

Een uitgebreide categorisering van alle AI-verdedigingsaanpakken, geordend op laag, methode en effectiviteit, die een gestructureerd framework biedt om verdedigingsstrategieën te evalueren.

defense taxonomy categorization framework security-layers

Taxonomie van AI-verdedigingen

De AI-verdedigingstaxonomie ordent het volledige spectrum van defensieve aanpakken in een gestructureerd framework. In plaats van elke verdediging als een losstaande techniek te behandelen, laat de taxonomie zien hoe verdedigingen op elkaar inwerken, waar er gaten zitten en welke combinaties zinvolle bescherming bieden tegen verschillende aanvalsklassen.

Overzicht van de taxonomie

AI-verdedigingen werken op zes onderscheiden lagen, van de buitenste (netwerkperimeter) tot de binnenste (modelgewichten):

Defense Layers (outer to inner):

Layer 6: Governance & Policy
  └── Responsible use policies, legal frameworks, incident response

Layer 5: Application
  └── Rate limiting, access control, audit logging, API design

Layer 4: Output
  └── Content filtering, PII detection, response validation

Layer 3: Inference
  └── Input sanitization, prompt shields, instruction hierarchy

Layer 2: Training
  └── Safety alignment, adversarial training, data curation

Layer 1: Architecture
  └── Model design, capability restrictions, isolation boundaries

Laag 1: architectuurverdedigingen

Verdedigingen die in het fundamentele systeemontwerp zijn ingebouwd.

Beperkingen van capaciteiten

Verdediging	Omschrijving	Effectiviteit
Tool allowlisting	Toegestane tool-aanroepen expliciet opsommen	Hoog tegen misbruik van tools
Sandboxed uitvoering	Agentacties in geïsoleerde omgevingen uitvoeren	Hoog tegen systeemcompromittering
Scheiding van capaciteiten	Lezen/schrijven/uitvoeren over verschillende modellen verdelen	Gemiddeld-hoog tegen privilege-escalatie
Contextisolatie	Cross-tenant-datatoegang op architectuurniveau voorkomen	Hoog tegen datalekkage

Keuzes in het modelontwerp

Verdediging	Omschrijving	Effectiviteit
Kleinere modellen voor gevoelige taken	Gespecialiseerde, kleinere modellen met minder capaciteiten gebruiken	Gemiddeld tegen brede aanvallen
Aparte safety-classifier	Een toegewijd model voor veiligheidsevaluatie, los van de generatie	Gemiddeld-hoog voor bekende aanvalstypen
Verificatie met twee modellen	Twee onafhankelijke modellen moeten het eens zijn voordat acties worden uitgevoerd	Hoog maar duur
Scheiding van retrieval	De retrieval- en generatiefases scheiden met beveiligingsgrenzen	Gemiddeld tegen RAG-poisoning

Laag 2: verdedigingen tijdens de training

Verdedigingen die tijdens de modeltraining worden toegepast om inherente robuustheid op te bouwen.

Methoden voor safety-alignment

Methode	Omschrijving	Sterke punten	Zwakke punten
RLHF	Een reward-model trainen op menselijke voorkeuren voor veiligheid	Goed bestudeerd, effectief voor gangbare gevallen	Reward hacking, distribution shift
DPO	Directe preferentie-optimalisatie zonder reward-model	Eenvoudiger, minder faalmodi	Minder flexibel dan RLHF
Constitutional AI	Het model evalueert zichzelf tegen principes	Schaalbaar, consistent	Afhankelijk van de volledigheid van de principes
Red team-data-augmentatie	Bekende aanvallen in de training opnemen	Pakt bekende dreigingen rechtstreeks aan	Kan nieuwe aanvallen niet dekken

Verdedigingen op dataniveau

Methode	Omschrijving	Effectiviteit
Data-curatie	Zorgvuldige selectie en filtering van trainingsdata	Essentiële basis
Deduplicatie	Dubbele en bijna-dubbele trainingssamples verwijderen	Verlaagt het memorisatierisico
Differential privacy	Ruis toevoegen tijdens de training om de invloed van individuele samples te beperken	Bewijsbare garanties maar ten koste van nut
Watermerkdetectie	AI-gegenereerde content in trainingsdata detecteren en filteren	Matig, een steeds evoluerende wapenwedloop

Laag 3: verdedigingen tijdens inference

Verdedigingen die werken tijdens de inference van het model, tussen input en output.

Inputverwerking

Verdediging	Omschrijving	Tegen
Instruction hierarchy	Prioriteit systeem > gebruiker > context afdwingen	Prompt injection
Prompt shields	ML-classifier die injectiepogingen detecteert	Prompt injection
Input-sanitisatie	Speciale tekens verwijderen, encoding normaliseren	Tokenizer-aanvallen
Perplexity-filtering	Input met afwijkend hoge perplexity afwijzen	Adversarial suffixes
Limieten op inputlengte	De maximale inputlengte per bron beperken	Aanvallen op het contextvenster

Aanpassing van de inference

Verdediging	Omschrijving	Tegen
SmoothLLM	Willekeurige inputverstoring voor robuustheid	Adversarial suffixes
Activatiemonitoring	Activaties van verborgen toestanden op anomalieën monitoren	Activation steering
Controles van attention-patronen	Een normale attention-verdeling verifiëren	Contextmanipulatie
Temperatuurregeling	Sampling-parameters beperken	Outputmanipulatie

Laag 4: outputverdedigingen

Verdedigingen die modeloutputs verwerken voordat ze worden afgeleverd.

Verdediging	Omschrijving	Tegen
Content-safety-classifier	ML-model dat de veiligheid van de output classificeert	Generatie van schadelijke content
PII-detectie & -redactie	Outputs scannen op persoonsgegevens	Data-exfiltratie
URL-/domein-allowlisting	Alleen verwijzingen naar goedgekeurde domeinen toestaan	Phishing via AI
Controles op responsconsistentie	Verifiëren dat de output aansluit op het verwachte gedrag	Afwijkend gedrag
Validatie van outputformaat	Zorgen dat antwoorden de verwachte structuur volgen	Formaatmanipulatie
Watermerking	Detecteerbare signalen in outputs inbedden	Herkomsttracering

Laag 5: applicatieverdedigingen

Verdedigingen op de applicatielaag rond het AI-model.

Verdediging	Omschrijving	Tegen
Rate limiting	Het requestvolume per gebruiker/sessie beperken	Geautomatiseerde aanvallen, extractie
Authenticatie & autorisatie	De identiteit en rechten van de gebruiker verifiëren	Onbevoegde toegang
Audit logging	Alle interacties vastleggen voor controle	Analyse na incidenten
Goedkeuring van tool-aanroepen	Menselijke goedkeuring vereisen voor gevoelige acties	Misbruik van tools
Sessiebeheer	De gespreksduur beperken, resets afdwingen	Aanvallen door contextopbouw
A/B-testen voor veiligheid	Modelversies vergelijken op veiligheidsregressie	Veiligheid van de deployment

Laag 6: governance & beleid

Niet-technische verdedigingen die de algehele beveiligingshouding kaderen.

Verdediging	Omschrijving	Tegen
Responsible use policy	Acceptabel gebruik en consequenties definiëren	Misbruik door bevoegde gebruikers
Incident response-plan	Procedures voor het afhandelen van veiligheidsincidenten	Alle aanvalstypen (respons)
Bug bounty / red teaming	Externe security tests stimuleren	Onbekende kwetsbaarheden
Model cards & documentatie	De capaciteiten en beperkingen van het model documenteren	Misverstanden over capaciteiten
Naleving van regelgeving	Aansluiten op AI-veiligheidsregelgeving	Juridisch en compliance-risico

Matrix van verdedigingseffectiviteit

Het koppelen van verdedigingen aan aanvalstypen onthult de dekking en de gaten:

Aanvalstype	Meest effectieve verdedigingen	Beperkte verdedigingen	Ineffectieve verdedigingen
Directe prompt injection	Instruction hierarchy, prompt shields	Outputfiltering	Rate limiting
Indirecte prompt injection	Input-sanitisatie per bron, contextisolatie	Content-classifiers	Authenticatie
Adversarial suffixes	Perplexity-filtering, SmoothLLM	Outputfiltering	Limieten op inputlengte
Semantische injection	Intent-classifiers, verificatie met twee modellen	Keywordfilters	Alle syntactische verdedigingen
Datavergiftiging	Data-curatie, differential privacy	Modelmonitoring	Outputfiltering
Modelextractie	Rate limiting, watermerking	API-ontwerp	Input-sanitisatie
Misbruik van tools	Tool allowlisting, goedkeuringsworkflows	Outputfiltering	Prompt shields
RAG-poisoning	Contentverificatie, bronauthenticatie	Outputfiltering	Rate limiting

Volwassenheidsmodel voor verdediging

Organisaties kunnen hun verdedigingsvolwassenheid beoordelen aan de hand van deze niveaus:

Niveau 1: Ad hoc (geen systematische verdediging)
Geen formele AI-securitymaatregelen. Het model is uitsluitend met standaard-safety-training ingezet. Reactieve respons op incidenten.
Niveau 2: Basis (input-/outputfiltering)
Content-safety-classifiers op input en output. Basale rate limiting. Enige logging aanwezig.
Niveau 3: Gestructureerd (verdediging in meerdere lagen)
Systematische verdedigingen op meerdere lagen. Instruction hierarchy afgedwongen. Toolpermissies gedefinieerd. Regelmatige red team-tests.
Niveau 4: Beheerd (gemeten en gemonitord)
Verdedigingseffectiviteit kwantitatief gemeten. Continue monitoring met alerting. Geautomatiseerde respons op gedetecteerde aanvallen. Regelmatige evaluatie van verdedigingen tegen nieuwe aanvalstechnieken.
Niveau 5: Geoptimaliseerd (adaptief en anticiperend)
Verdedigingen passen zich aan opkomende dreigingen aan. Proactief red teamen van nieuwe aanvalsklassen. Defense-in-depth zonder single points of failure. Continue verbetering op basis van threat intelligence.

Verdedigingscombinaties kiezen

Geen enkele verdediging is op zichzelf voldoende. Effectieve bescherming vereist het kiezen van complementaire verdedigingen:

Minimaal haalbare verdedigingsstack

Voor elke productie-AI-deployment:

Input: Instruction hierarchy + basale inputvalidatie
Output: Content-safety-classifier + PII-detectie
Applicatie: Rate limiting + audit logging
Governance: Incident response-plan + responsible use policy

Uitgebreide verdedigingsstack

Voor deployments met hoog risico (financieel, gezondheidszorg, overheid):

Al het bovenstaande, plus:

Architectuur: Tool allowlisting + sandboxed uitvoering + contextisolatie
Training: Adversarial training + red team-data-augmentatie
Inference: Prompt shields + SmoothLLM + activatiemonitoring
Applicatie: Goedkeuringsworkflows voor tool-aanroepen + sessielimieten
Governance: Regelmatige red team-beoordelingen + bug bounty

Gerelateerde onderwerpen

Defense Landscape — Bredere verdedigingscontext en -evolutie
Layered Defense Strategy — Defense-in-depth implementeren
Defense Evaluation — Verdedigingseffectiviteit meten
Defense Economics — Kosten-batenanalyse van verdedigingen

Knowledge Check

Een bedrijf zet een AI-chatbot in met RLHF-safety-training en een content-safety-classifier op de outputs. Tegen welk aanvalstype zijn ze het MINST beschermd?

Referenties

OWASP, "Top 10 for Large Language Model Applications" (2024)
NIST, "AI Risk Management Framework" (2023)
MITRE, "ATLAS: Adversarial Threat Landscape for AI Systems" (2023)
Microsoft, "AI Red Team Lessons Learned" (2023)

Taxonomie van AI-verdedigingen

Beginner9 min lezenBijgewerkt op 2026-03-15

Een uitgebreide categorisering van alle AI-verdedigingsaanpakken, geordend op laag, methode en effectiviteit, die een gestructureerd framework biedt om verdedigingsstrategieën te evalueren.

defense taxonomy categorization framework security-layers

Taxonomie van AI-verdedigingen

Overzicht van de taxonomie

AI-verdedigingen werken op zes onderscheiden lagen, van de buitenste (netwerkperimeter) tot de binnenste (modelgewichten):

Defense Layers (outer to inner):

Layer 6: Governance & Policy
  └── Responsible use policies, legal frameworks, incident response

Layer 5: Application
  └── Rate limiting, access control, audit logging, API design

Layer 4: Output
  └── Content filtering, PII detection, response validation

Layer 3: Inference
  └── Input sanitization, prompt shields, instruction hierarchy

Layer 2: Training
  └── Safety alignment, adversarial training, data curation

Layer 1: Architecture
  └── Model design, capability restrictions, isolation boundaries

Laag 1: architectuurverdedigingen

Verdedigingen die in het fundamentele systeemontwerp zijn ingebouwd.

Beperkingen van capaciteiten

Verdediging	Omschrijving	Effectiviteit
Tool allowlisting	Toegestane tool-aanroepen expliciet opsommen	Hoog tegen misbruik van tools
Sandboxed uitvoering	Agentacties in geïsoleerde omgevingen uitvoeren	Hoog tegen systeemcompromittering
Scheiding van capaciteiten	Lezen/schrijven/uitvoeren over verschillende modellen verdelen	Gemiddeld-hoog tegen privilege-escalatie
Contextisolatie	Cross-tenant-datatoegang op architectuurniveau voorkomen	Hoog tegen datalekkage

Keuzes in het modelontwerp

Verdediging	Omschrijving	Effectiviteit
Kleinere modellen voor gevoelige taken	Gespecialiseerde, kleinere modellen met minder capaciteiten gebruiken	Gemiddeld tegen brede aanvallen
Aparte safety-classifier	Een toegewijd model voor veiligheidsevaluatie, los van de generatie	Gemiddeld-hoog voor bekende aanvalstypen
Verificatie met twee modellen	Twee onafhankelijke modellen moeten het eens zijn voordat acties worden uitgevoerd	Hoog maar duur
Scheiding van retrieval	De retrieval- en generatiefases scheiden met beveiligingsgrenzen	Gemiddeld tegen RAG-poisoning

Laag 2: verdedigingen tijdens de training

Verdedigingen die tijdens de modeltraining worden toegepast om inherente robuustheid op te bouwen.

Methoden voor safety-alignment

Methode	Omschrijving	Sterke punten	Zwakke punten
RLHF	Een reward-model trainen op menselijke voorkeuren voor veiligheid	Goed bestudeerd, effectief voor gangbare gevallen	Reward hacking, distribution shift
DPO	Directe preferentie-optimalisatie zonder reward-model	Eenvoudiger, minder faalmodi	Minder flexibel dan RLHF
Constitutional AI	Het model evalueert zichzelf tegen principes	Schaalbaar, consistent	Afhankelijk van de volledigheid van de principes
Red team-data-augmentatie	Bekende aanvallen in de training opnemen	Pakt bekende dreigingen rechtstreeks aan	Kan nieuwe aanvallen niet dekken

Verdedigingen op dataniveau

Methode	Omschrijving	Effectiviteit
Data-curatie	Zorgvuldige selectie en filtering van trainingsdata	Essentiële basis
Deduplicatie	Dubbele en bijna-dubbele trainingssamples verwijderen	Verlaagt het memorisatierisico
Differential privacy	Ruis toevoegen tijdens de training om de invloed van individuele samples te beperken	Bewijsbare garanties maar ten koste van nut
Watermerkdetectie	AI-gegenereerde content in trainingsdata detecteren en filteren	Matig, een steeds evoluerende wapenwedloop

Laag 3: verdedigingen tijdens inference

Verdedigingen die werken tijdens de inference van het model, tussen input en output.

Inputverwerking

Verdediging	Omschrijving	Tegen
Instruction hierarchy	Prioriteit systeem > gebruiker > context afdwingen	Prompt injection
Prompt shields	ML-classifier die injectiepogingen detecteert	Prompt injection
Input-sanitisatie	Speciale tekens verwijderen, encoding normaliseren	Tokenizer-aanvallen
Perplexity-filtering	Input met afwijkend hoge perplexity afwijzen	Adversarial suffixes
Limieten op inputlengte	De maximale inputlengte per bron beperken	Aanvallen op het contextvenster

Aanpassing van de inference

Verdediging	Omschrijving	Tegen
SmoothLLM	Willekeurige inputverstoring voor robuustheid	Adversarial suffixes
Activatiemonitoring	Activaties van verborgen toestanden op anomalieën monitoren	Activation steering
Controles van attention-patronen	Een normale attention-verdeling verifiëren	Contextmanipulatie
Temperatuurregeling	Sampling-parameters beperken	Outputmanipulatie

Laag 4: outputverdedigingen

Verdedigingen die modeloutputs verwerken voordat ze worden afgeleverd.

Verdediging	Omschrijving	Tegen
Content-safety-classifier	ML-model dat de veiligheid van de output classificeert	Generatie van schadelijke content
PII-detectie & -redactie	Outputs scannen op persoonsgegevens	Data-exfiltratie
URL-/domein-allowlisting	Alleen verwijzingen naar goedgekeurde domeinen toestaan	Phishing via AI
Controles op responsconsistentie	Verifiëren dat de output aansluit op het verwachte gedrag	Afwijkend gedrag
Validatie van outputformaat	Zorgen dat antwoorden de verwachte structuur volgen	Formaatmanipulatie
Watermerking	Detecteerbare signalen in outputs inbedden	Herkomsttracering

Laag 5: applicatieverdedigingen

Verdedigingen op de applicatielaag rond het AI-model.

Verdediging	Omschrijving	Tegen
Rate limiting	Het requestvolume per gebruiker/sessie beperken	Geautomatiseerde aanvallen, extractie
Authenticatie & autorisatie	De identiteit en rechten van de gebruiker verifiëren	Onbevoegde toegang
Audit logging	Alle interacties vastleggen voor controle	Analyse na incidenten
Goedkeuring van tool-aanroepen	Menselijke goedkeuring vereisen voor gevoelige acties	Misbruik van tools
Sessiebeheer	De gespreksduur beperken, resets afdwingen	Aanvallen door contextopbouw
A/B-testen voor veiligheid	Modelversies vergelijken op veiligheidsregressie	Veiligheid van de deployment

Laag 6: governance & beleid

Niet-technische verdedigingen die de algehele beveiligingshouding kaderen.

Verdediging	Omschrijving	Tegen
Responsible use policy	Acceptabel gebruik en consequenties definiëren	Misbruik door bevoegde gebruikers
Incident response-plan	Procedures voor het afhandelen van veiligheidsincidenten	Alle aanvalstypen (respons)
Bug bounty / red teaming	Externe security tests stimuleren	Onbekende kwetsbaarheden
Model cards & documentatie	De capaciteiten en beperkingen van het model documenteren	Misverstanden over capaciteiten
Naleving van regelgeving	Aansluiten op AI-veiligheidsregelgeving	Juridisch en compliance-risico

Matrix van verdedigingseffectiviteit

Het koppelen van verdedigingen aan aanvalstypen onthult de dekking en de gaten:

Aanvalstype	Meest effectieve verdedigingen	Beperkte verdedigingen	Ineffectieve verdedigingen
Directe prompt injection	Instruction hierarchy, prompt shields	Outputfiltering	Rate limiting
Indirecte prompt injection	Input-sanitisatie per bron, contextisolatie	Content-classifiers	Authenticatie
Adversarial suffixes	Perplexity-filtering, SmoothLLM	Outputfiltering	Limieten op inputlengte
Semantische injection	Intent-classifiers, verificatie met twee modellen	Keywordfilters	Alle syntactische verdedigingen
Datavergiftiging	Data-curatie, differential privacy	Modelmonitoring	Outputfiltering
Modelextractie	Rate limiting, watermerking	API-ontwerp	Input-sanitisatie
Misbruik van tools	Tool allowlisting, goedkeuringsworkflows	Outputfiltering	Prompt shields
RAG-poisoning	Contentverificatie, bronauthenticatie	Outputfiltering	Rate limiting

Volwassenheidsmodel voor verdediging

Organisaties kunnen hun verdedigingsvolwassenheid beoordelen aan de hand van deze niveaus:

Niveau 1: Ad hoc (geen systematische verdediging)
Geen formele AI-securitymaatregelen. Het model is uitsluitend met standaard-safety-training ingezet. Reactieve respons op incidenten.
Niveau 2: Basis (input-/outputfiltering)
Content-safety-classifiers op input en output. Basale rate limiting. Enige logging aanwezig.
Niveau 3: Gestructureerd (verdediging in meerdere lagen)
Systematische verdedigingen op meerdere lagen. Instruction hierarchy afgedwongen. Toolpermissies gedefinieerd. Regelmatige red team-tests.
Niveau 4: Beheerd (gemeten en gemonitord)
Verdedigingseffectiviteit kwantitatief gemeten. Continue monitoring met alerting. Geautomatiseerde respons op gedetecteerde aanvallen. Regelmatige evaluatie van verdedigingen tegen nieuwe aanvalstechnieken.
Niveau 5: Geoptimaliseerd (adaptief en anticiperend)
Verdedigingen passen zich aan opkomende dreigingen aan. Proactief red teamen van nieuwe aanvalsklassen. Defense-in-depth zonder single points of failure. Continue verbetering op basis van threat intelligence.

Verdedigingscombinaties kiezen

Geen enkele verdediging is op zichzelf voldoende. Effectieve bescherming vereist het kiezen van complementaire verdedigingen:

Minimaal haalbare verdedigingsstack

Voor elke productie-AI-deployment:

Input: Instruction hierarchy + basale inputvalidatie
Output: Content-safety-classifier + PII-detectie
Applicatie: Rate limiting + audit logging
Governance: Incident response-plan + responsible use policy

Uitgebreide verdedigingsstack

Voor deployments met hoog risico (financieel, gezondheidszorg, overheid):

Al het bovenstaande, plus:

Architectuur: Tool allowlisting + sandboxed uitvoering + contextisolatie
Training: Adversarial training + red team-data-augmentatie
Inference: Prompt shields + SmoothLLM + activatiemonitoring
Applicatie: Goedkeuringsworkflows voor tool-aanroepen + sessielimieten
Governance: Regelmatige red team-beoordelingen + bug bounty

Gerelateerde onderwerpen

Defense Landscape — Bredere verdedigingscontext en -evolutie
Layered Defense Strategy — Defense-in-depth implementeren
Defense Evaluation — Verdedigingseffectiviteit meten
Defense Economics — Kosten-batenanalyse van verdedigingen

Knowledge Check

Een bedrijf zet een AI-chatbot in met RLHF-safety-training en een content-safety-classifier op de outputs. Tegen welk aanvalstype zijn ze het MINST beschermd?

Referenties

OWASP, "Top 10 for Large Language Model Applications" (2024)
NIST, "AI Risk Management Framework" (2023)
MITRE, "ATLAS: Adversarial Threat Landscape for AI Systems" (2023)
Microsoft, "AI Red Team Lessons Learned" (2023)

Taxonomie van AI-verdedigingen

Niveau 1: Ad hoc (geen systematische verdediging)

Niveau 2: Basis (input-/outputfiltering)

Niveau 3: Gestructureerd (verdediging in meerdere lagen)

Niveau 4: Beheerd (gemeten en gemonitord)

Niveau 5: Geoptimaliseerd (adaptief en anticiperend)

Gerelateerde artikelen

Taxonomie van AI-verdedigingen

Niveau 1: Ad hoc (geen systematische verdediging)

Niveau 2: Basis (input-/outputfiltering)

Niveau 3: Gestructureerd (verdediging in meerdere lagen)

Niveau 4: Beheerd (gemeten en gemonitord)

Niveau 5: Geoptimaliseerd (adaptief en anticiperend)

Gerelateerde artikelen