Denken als een verdediger
Mentale modellen voor defensief denken, frameworks voor risicobeoordeling, afwegingen bij verdediging, en waarom je een betere red teamer wordt door het perspectief van de verdediger te begrijpen.
De beste red teamers denken niet alleen als aanvallers -- ze denken ook als de verdedigers die ze proberen te slim af te zijn. Begrijpen hoe verdedigers prioriteren, onder welke beperkingen ze werken en waar hun mentale modellen blinde vlekken hebben: dat is wat opportunistisch testen onderscheidt van strategisch misbruik.
De beperkingen van de verdediger
Verdedigers werken onder beperkingen waar aanvallers geen last van hebben. Deze beperkingen creëren systematische blinde vlekken:
| Beperking | Impact op verdediging | Kans voor de aanvaller |
|---|---|---|
| Budget | Kan niet elke tool inzetten; moet prioriteren | Niet-aangepakte oppervlakken zijn onverdedigd |
| Latentie | Zwaar filteren verhoogt de responstijd; gebruikers klagen | Realtime filters moeten snel zijn, wat de complexiteit beperkt |
| Vals-positief-percentage | Het blokkeren van legitieme gebruikers is kostbaar | Verdedigers versoepelen filters, waardoor gaten ontstaan |
| Onderhoudslast | Regels moeten worden bijgewerkt naarmate aanvallen evolueren | Verouderde regels missen nieuwe technieken |
| Gebruikerservaring | Te veel beperking drijft gebruikers naar concurrenten | Bedrijfsmatige druk houdt filters permissief |
| Observability | Kan niet alles in realtime inspecteren | Low-and-slow aanvallen ontwijken detectie |
Frameworks voor risicobeoordeling
Verdedigers gebruiken gestructureerde frameworks om te bepalen wat ze beschermen en hoeveel ze investeren. Door deze frameworks te begrijpen, weet je wat zij als hoge prioriteit (goed verdedigd) en lage prioriteit (minder verdedigd) beschouwen.
De AI-risicomatrix
Verdedigers beoordelen dreigingen doorgaans langs twee assen:
| Lage waarschijnlijkheid | Hoge waarschijnlijkheid | |
|---|---|---|
| Hoge impact | Geavanceerde aanvallen (activation steering, modelextractie) -- verdedigd indien bekend, vaak genegeerd | Veelvoorkomende jailbreaks, prompt injection -- primaire verdedigingsinvestering |
| Lage impact | Randgevallen, noviteitsaanvallen -- zelden verdedigd | Spam, laagwaardig misbruik -- geautomatiseerde verdedigingen |
Inzicht voor red team: De waardevolste bevindingen leven in het kwadrant "Hoge impact, lage waarschijnlijkheid". Dit zijn de aanvallen die verdedigers in theorie kennen, maar niet hebben geprioriteerd omdat ze onwaarschijnlijk lijken. Aantonen dat ze praktisch uitvoerbaar zijn, verandert de risicocalculatie.
STRIDE voor AI-systemen
Aangepast vanuit traditioneel threat modeling:
| Dreiging | AI-manifestatie | Typische verdedigingsprioriteit |
|---|---|---|
| Spoofing | Het nabootsen van de autoriteit van de system prompt | Gemiddeld |
| Tampering | Het wijzigen van de input/context van het model | Hoog |
| Repudiation | Gebrek aan audit trails voor modelacties | Laag |
| Information Disclosure | Lekken van de system prompt, extractie van trainingsdata | Gemiddeld-hoog |
| Denial of Service | Tokenuitputting, overspoeling van het contextvenster | Gemiddeld |
| Elevation of Privilege | Prompt injection die toegang tot tools verkrijgt | Hoog |
De afweging tussen vals-positief en vals-negatief
Dit is de centrale spanning in AI-verdediging. Elk filter heeft een detectiedrempel, en die in welke richting dan ook verschuiven heeft kosten:
More Strict (lower threshold) More Permissive (higher threshold)
←─────────────────────────────────────────────────────────────────────→
Catches more attacks Misses more attacks
Blocks more legitimate users Better user experience
Higher false positive rate Higher false negative rate
Users complain, business pushes back Attacks succeed, security team concerned
De afweging misbruiken
Verdedigers stemmen hun filters doorgaans af op een vals-positief-percentage onder 1%. Dit betekent:
- Grensgevallen glippen erdoor -- payloads die er voor 51% goedaardig uitzien, glippen door filters die op een laag VP-percentage zijn afgestemd
- Categoriegrenzen zijn vaag -- content die dubbelzinnig is tussen categorieën (educatief vs. schadelijk, fictief vs. instructief) valt erdoor
- De drempel varieert per categorie -- categorieën met hoge inzet (CSAM, geweld) hebben strikte drempels; categorieën met lagere inzet (milde grofheid, controversiële meningen) zijn permissiever
Hoe verdedigers prioriteren
Begrijpen wat verdedigers prioriteren, vertelt je waar verdedigingen sterk en waar ze zwak zijn:
Prioriteit 1: Compliance en juridisch risico
Gereguleerde contentcategorieën (CSAM, terrorisme, gereguleerd advies) krijgen de meeste verdedigingsinvestering, omdat falen juridische gevolgen heeft. Dit zijn de moeilijkste categorieën om te omzeilen.
Prioriteit 2: Merk- en reputatierisico
Content die de organisatie in verlegenheid zou brengen als er screenshots van op sociale media worden gedeeld. De dekking loopt sterk uiteen -- verdedigers beschermen tegen voor de hand liggende gevallen, maar missen subtiele of contextafhankelijke gevallen.
Prioriteit 3: Misbruik mogelijk maken
Voorkomen dat het model helpt bij schadelijke activiteiten (wapens, malware, fraude). De dekking is inconsistent, omdat de grens tussen educatieve en faciliterende content subjectief is.
Prioriteit 4: Gegevensbescherming
Voorkomen dat trainingsdata, system prompts of gebruikersdata lekken. Vaak onderbelicht, omdat het risico minder direct aanvoelt dan de risico's van contentgeneratie.
Mentale modellen voor betere red teaming
De "Wat zou ik verdedigen?"-oefening
Vraag jezelf af voordat je een systeem test: als jij de verdediger was, wat zou je dan als eerste beschermen? Wat zou je overslaan? De dingen die je zou overslaan, zijn waarschijnlijk onverdedigd.
Het "Defense Debt"-model
Net als bij technical debt bouwen organisaties defense debt op -- bekende gaten die ze niet hebben aangepakt. Veelvoorkomende oorzaken:
- Snelle featureontwikkeling die de security review voorbijstreeft
- Nieuwe modaliteiten (afbeeldingen, audio) toegevoegd zonder bijbehorende filters
- Tool-integraties die de hoofd-inputpijplijn omzeilen
- Legacy-endpoints met oudere (of geen) filtering
De "Laatst geaudit"-heuristiek
Verdedigingen verslechteren in de loop van de tijd naarmate aanvalstechnieken evolueren. Hoe minder recent een verdediging is bijgewerkt, hoe waarschijnlijker het is dat er bekende bypasses voor zijn. Vraag tijdens de scoping: wanneer was de laatste security review van de AI-componenten?
Bevindingen schrijven die aanslaan
Door het perspectief van de verdediger te begrijpen, worden je red team-rapporten ook beter uitvoerbaar:
Kader bevindingen in termen van bedrijfsrisico
Niet "Ik heb het inputfilter omzeild", maar "Een aanvaller kan het model content laten genereren die [specifieke compliance-eis] schendt, wat juridische blootstelling oplevert."
Erken de complexiteit van verdediging
Laat zien dat je de afwegingen begrijpt. Beveel specifieke drempelaanpassingen aan in plaats van een vaag "verbeter de filtering".
Lever reproduceerbare testcases
Verdedigers moeten de fix valideren. Voeg exacte payloads toe, verwacht versus werkelijk gedrag, en bypass-percentages over meerdere pogingen.
Koppel aan hun bestaande framework
Als ze de OWASP Top 10 for LLMs gebruiken, koppel je bevindingen dan aan die categorieën. Spreek hun taal.
Verder lezen
- Understanding AI Defenses -- categorieën en de asymmetrie tussen aanvaller en verdediger
- Red Team Findings to Remediation -- bevindingen vertalen naar fixes
- Threat Modeling for AI Systems -- gestructureerde aanpakken om aanvalsoppervlakken te identificeren
Gerelateerde onderwerpen
- Understanding AI Defenses - Verdedigingscategorieën en de asymmetrie tussen aanvaller en verdediger
- Het AI-verdedigingslandschap - Tools en leveranciers in elke verdedigingscategorie
- Red Team Findings to Remediation - Offensieve bevindingen vertalen naar defensieve aanbevelingen
- AI Threat Models - Gestructureerde threat modeling-frameworks voor AI-systemen
- Defense-in-Depth for LLM Apps - Strategie voor gelaagde verdediging en waar gaten ontstaan
Referenties
- "OWASP Top 10 for LLM Applications" - OWASP (2025) - Industriestandaard-risicoframework dat verdedigers gebruiken om te prioriteren, en dus essentieel voor red teamers om te begrijpen
- "NIST AI Risk Management Framework (AI RMF 1.0)" - NIST (2023) - Framework voor risicobeoordeling dat enterprise-verdedigers gebruiken om dreigingen voor AI-systemen te evalueren
- "The Precision-Recall Trade-off in Machine Learning" - Saito & Rehmsmeier (2015) - Fundamenteel werk over de afweging van de classificatiedrempel die direct van toepassing is op het afstemmen van contentfilters
- "Threat Modeling: Designing for Security" - Shostack, Adam (2014) - Het STRIDE-framework, in de risicobeoordelingssectie van deze pagina aangepast voor AI-systemen
Een verdediger heeft zijn contentfilter afgestemd op een vals-positief-percentage van 0,5%. Hoe zou dit als red teamer je payload-ontwerp moeten beïnvloeden?