Taxonomie van AI-verdedigingen
Een uitgebreide categorisering van alle AI-verdedigingsaanpakken, geordend op laag, methode en effectiviteit, die een gestructureerd framework biedt om verdedigingsstrategieën te evalueren.
Taxonomie van AI-verdedigingen
De AI-verdedigingstaxonomie ordent het volledige spectrum van defensieve aanpakken in een gestructureerd framework. In plaats van elke verdediging als een losstaande techniek te behandelen, laat de taxonomie zien hoe verdedigingen op elkaar inwerken, waar er gaten zitten en welke combinaties zinvolle bescherming bieden tegen verschillende aanvalsklassen.
Overzicht van de taxonomie
AI-verdedigingen werken op zes onderscheiden lagen, van de buitenste (netwerkperimeter) tot de binnenste (modelgewichten):
Defense Layers (outer to inner):
Layer 6: Governance & Policy
└── Responsible use policies, legal frameworks, incident response
Layer 5: Application
└── Rate limiting, access control, audit logging, API design
Layer 4: Output
└── Content filtering, PII detection, response validation
Layer 3: Inference
└── Input sanitization, prompt shields, instruction hierarchy
Layer 2: Training
└── Safety alignment, adversarial training, data curation
Layer 1: Architecture
└── Model design, capability restrictions, isolation boundaries
Laag 1: architectuurverdedigingen
Verdedigingen die in het fundamentele systeemontwerp zijn ingebouwd.
Beperkingen van capaciteiten
| Verdediging | Omschrijving | Effectiviteit |
|---|---|---|
| Tool allowlisting | Toegestane tool-aanroepen expliciet opsommen | Hoog tegen misbruik van tools |
| Sandboxed uitvoering | Agentacties in geïsoleerde omgevingen uitvoeren | Hoog tegen systeemcompromittering |
| Scheiding van capaciteiten | Lezen/schrijven/uitvoeren over verschillende modellen verdelen | Gemiddeld-hoog tegen privilege-escalatie |
| Contextisolatie | Cross-tenant-datatoegang op architectuurniveau voorkomen | Hoog tegen datalekkage |
Keuzes in het modelontwerp
| Verdediging | Omschrijving | Effectiviteit |
|---|---|---|
| Kleinere modellen voor gevoelige taken | Gespecialiseerde, kleinere modellen met minder capaciteiten gebruiken | Gemiddeld tegen brede aanvallen |
| Aparte safety-classifier | Een toegewijd model voor veiligheidsevaluatie, los van de generatie | Gemiddeld-hoog voor bekende aanvalstypen |
| Verificatie met twee modellen | Twee onafhankelijke modellen moeten het eens zijn voordat acties worden uitgevoerd | Hoog maar duur |
| Scheiding van retrieval | De retrieval- en generatiefases scheiden met beveiligingsgrenzen | Gemiddeld tegen RAG-poisoning |
Laag 2: verdedigingen tijdens de training
Verdedigingen die tijdens de modeltraining worden toegepast om inherente robuustheid op te bouwen.
Methoden voor safety-alignment
| Methode | Omschrijving | Sterke punten | Zwakke punten |
|---|---|---|---|
| RLHF | Een reward-model trainen op menselijke voorkeuren voor veiligheid | Goed bestudeerd, effectief voor gangbare gevallen | Reward hacking, distribution shift |
| DPO | Directe preferentie-optimalisatie zonder reward-model | Eenvoudiger, minder faalmodi | Minder flexibel dan RLHF |
| Constitutional AI | Het model evalueert zichzelf tegen principes | Schaalbaar, consistent | Afhankelijk van de volledigheid van de principes |
| Red team-data-augmentatie | Bekende aanvallen in de training opnemen | Pakt bekende dreigingen rechtstreeks aan | Kan nieuwe aanvallen niet dekken |
Verdedigingen op dataniveau
| Methode | Omschrijving | Effectiviteit |
|---|---|---|
| Data-curatie | Zorgvuldige selectie en filtering van trainingsdata | Essentiële basis |
| Deduplicatie | Dubbele en bijna-dubbele trainingssamples verwijderen | Verlaagt het memorisatierisico |
| Differential privacy | Ruis toevoegen tijdens de training om de invloed van individuele samples te beperken | Bewijsbare garanties maar ten koste van nut |
| Watermerkdetectie | AI-gegenereerde content in trainingsdata detecteren en filteren | Matig, een steeds evoluerende wapenwedloop |
Laag 3: verdedigingen tijdens inference
Verdedigingen die werken tijdens de inference van het model, tussen input en output.
Inputverwerking
| Verdediging | Omschrijving | Tegen |
|---|---|---|
| Instruction hierarchy | Prioriteit systeem > gebruiker > context afdwingen | Prompt injection |
| Prompt shields | ML-classifier die injectiepogingen detecteert | Prompt injection |
| Input-sanitisatie | Speciale tekens verwijderen, encoding normaliseren | Tokenizer-aanvallen |
| Perplexity-filtering | Input met afwijkend hoge perplexity afwijzen | Adversarial suffixes |
| Limieten op inputlengte | De maximale inputlengte per bron beperken | Aanvallen op het contextvenster |
Aanpassing van de inference
| Verdediging | Omschrijving | Tegen |
|---|---|---|
| SmoothLLM | Willekeurige inputverstoring voor robuustheid | Adversarial suffixes |
| Activatiemonitoring | Activaties van verborgen toestanden op anomalieën monitoren | Activation steering |
| Controles van attention-patronen | Een normale attention-verdeling verifiëren | Contextmanipulatie |
| Temperatuurregeling | Sampling-parameters beperken | Outputmanipulatie |
Laag 4: outputverdedigingen
Verdedigingen die modeloutputs verwerken voordat ze worden afgeleverd.
| Verdediging | Omschrijving | Tegen |
|---|---|---|
| Content-safety-classifier | ML-model dat de veiligheid van de output classificeert | Generatie van schadelijke content |
| PII-detectie & -redactie | Outputs scannen op persoonsgegevens | Data-exfiltratie |
| URL-/domein-allowlisting | Alleen verwijzingen naar goedgekeurde domeinen toestaan | Phishing via AI |
| Controles op responsconsistentie | Verifiëren dat de output aansluit op het verwachte gedrag | Afwijkend gedrag |
| Validatie van outputformaat | Zorgen dat antwoorden de verwachte structuur volgen | Formaatmanipulatie |
| Watermerking | Detecteerbare signalen in outputs inbedden | Herkomsttracering |
Laag 5: applicatieverdedigingen
Verdedigingen op de applicatielaag rond het AI-model.
| Verdediging | Omschrijving | Tegen |
|---|---|---|
| Rate limiting | Het requestvolume per gebruiker/sessie beperken | Geautomatiseerde aanvallen, extractie |
| Authenticatie & autorisatie | De identiteit en rechten van de gebruiker verifiëren | Onbevoegde toegang |
| Audit logging | Alle interacties vastleggen voor controle | Analyse na incidenten |
| Goedkeuring van tool-aanroepen | Menselijke goedkeuring vereisen voor gevoelige acties | Misbruik van tools |
| Sessiebeheer | De gespreksduur beperken, resets afdwingen | Aanvallen door contextopbouw |
| A/B-testen voor veiligheid | Modelversies vergelijken op veiligheidsregressie | Veiligheid van de deployment |
Laag 6: governance & beleid
Niet-technische verdedigingen die de algehele beveiligingshouding kaderen.
| Verdediging | Omschrijving | Tegen |
|---|---|---|
| Responsible use policy | Acceptabel gebruik en consequenties definiëren | Misbruik door bevoegde gebruikers |
| Incident response-plan | Procedures voor het afhandelen van veiligheidsincidenten | Alle aanvalstypen (respons) |
| Bug bounty / red teaming | Externe security tests stimuleren | Onbekende kwetsbaarheden |
| Model cards & documentatie | De capaciteiten en beperkingen van het model documenteren | Misverstanden over capaciteiten |
| Naleving van regelgeving | Aansluiten op AI-veiligheidsregelgeving | Juridisch en compliance-risico |
Matrix van verdedigingseffectiviteit
Het koppelen van verdedigingen aan aanvalstypen onthult de dekking en de gaten:
| Aanvalstype | Meest effectieve verdedigingen | Beperkte verdedigingen | Ineffectieve verdedigingen |
|---|---|---|---|
| Directe prompt injection | Instruction hierarchy, prompt shields | Outputfiltering | Rate limiting |
| Indirecte prompt injection | Input-sanitisatie per bron, contextisolatie | Content-classifiers | Authenticatie |
| Adversarial suffixes | Perplexity-filtering, SmoothLLM | Outputfiltering | Limieten op inputlengte |
| Semantische injection | Intent-classifiers, verificatie met twee modellen | Keywordfilters | Alle syntactische verdedigingen |
| Datavergiftiging | Data-curatie, differential privacy | Modelmonitoring | Outputfiltering |
| Modelextractie | Rate limiting, watermerking | API-ontwerp | Input-sanitisatie |
| Misbruik van tools | Tool allowlisting, goedkeuringsworkflows | Outputfiltering | Prompt shields |
| RAG-poisoning | Contentverificatie, bronauthenticatie | Outputfiltering | Rate limiting |
Volwassenheidsmodel voor verdediging
Organisaties kunnen hun verdedigingsvolwassenheid beoordelen aan de hand van deze niveaus:
Niveau 1: Ad hoc (geen systematische verdediging)
Geen formele AI-securitymaatregelen. Het model is uitsluitend met standaard-safety-training ingezet. Reactieve respons op incidenten.
Niveau 2: Basis (input-/outputfiltering)
Content-safety-classifiers op input en output. Basale rate limiting. Enige logging aanwezig.
Niveau 3: Gestructureerd (verdediging in meerdere lagen)
Systematische verdedigingen op meerdere lagen. Instruction hierarchy afgedwongen. Toolpermissies gedefinieerd. Regelmatige red team-tests.
Niveau 4: Beheerd (gemeten en gemonitord)
Verdedigingseffectiviteit kwantitatief gemeten. Continue monitoring met alerting. Geautomatiseerde respons op gedetecteerde aanvallen. Regelmatige evaluatie van verdedigingen tegen nieuwe aanvalstechnieken.
Niveau 5: Geoptimaliseerd (adaptief en anticiperend)
Verdedigingen passen zich aan opkomende dreigingen aan. Proactief red teamen van nieuwe aanvalsklassen. Defense-in-depth zonder single points of failure. Continue verbetering op basis van threat intelligence.
Verdedigingscombinaties kiezen
Geen enkele verdediging is op zichzelf voldoende. Effectieve bescherming vereist het kiezen van complementaire verdedigingen:
Minimaal haalbare verdedigingsstack
Voor elke productie-AI-deployment:
- Input: Instruction hierarchy + basale inputvalidatie
- Output: Content-safety-classifier + PII-detectie
- Applicatie: Rate limiting + audit logging
- Governance: Incident response-plan + responsible use policy
Uitgebreide verdedigingsstack
Voor deployments met hoog risico (financieel, gezondheidszorg, overheid):
Al het bovenstaande, plus:
- Architectuur: Tool allowlisting + sandboxed uitvoering + contextisolatie
- Training: Adversarial training + red team-data-augmentatie
- Inference: Prompt shields + SmoothLLM + activatiemonitoring
- Applicatie: Goedkeuringsworkflows voor tool-aanroepen + sessielimieten
- Governance: Regelmatige red team-beoordelingen + bug bounty
Gerelateerde onderwerpen
- Defense Landscape — Bredere verdedigingscontext en -evolutie
- Layered Defense Strategy — Defense-in-depth implementeren
- Defense Evaluation — Verdedigingseffectiviteit meten
- Defense Economics — Kosten-batenanalyse van verdedigingen
Een bedrijf zet een AI-chatbot in met RLHF-safety-training en een content-safety-classifier op de outputs. Tegen welk aanvalstype zijn ze het MINST beschermd?
Referenties
- OWASP, "Top 10 for Large Language Model Applications" (2024)
- NIST, "AI Risk Management Framework" (2023)
- MITRE, "ATLAS: Adversarial Threat Landscape for AI Systems" (2023)
- Microsoft, "AI Red Team Lessons Learned" (2023)