Denken als een verdediger

Gemiddeld9 min lezenBijgewerkt op 2026-03-13

Mentale modellen voor defensief denken, frameworks voor risicobeoordeling, afwegingen bij verdediging, en waarom je een betere red teamer wordt door het perspectief van de verdediger te begrijpen.

defender-mindset risk-assessment tradeoffs false-positives threat-modeling

De beste red teamers denken niet alleen als aanvallers -- ze denken ook als de verdedigers die ze proberen te slim af te zijn. Begrijpen hoe verdedigers prioriteren, onder welke beperkingen ze werken en waar hun mentale modellen blinde vlekken hebben: dat is wat opportunistisch testen onderscheidt van strategisch misbruik.

De beperkingen van de verdediger

Verdedigers werken onder beperkingen waar aanvallers geen last van hebben. Deze beperkingen creëren systematische blinde vlekken:

Beperking	Impact op verdediging	Kans voor de aanvaller
Budget	Kan niet elke tool inzetten; moet prioriteren	Niet-aangepakte oppervlakken zijn onverdedigd
Latentie	Zwaar filteren verhoogt de responstijd; gebruikers klagen	Realtime filters moeten snel zijn, wat de complexiteit beperkt
Vals-positief-percentage	Het blokkeren van legitieme gebruikers is kostbaar	Verdedigers versoepelen filters, waardoor gaten ontstaan
Onderhoudslast	Regels moeten worden bijgewerkt naarmate aanvallen evolueren	Verouderde regels missen nieuwe technieken
Gebruikerservaring	Te veel beperking drijft gebruikers naar concurrenten	Bedrijfsmatige druk houdt filters permissief
Observability	Kan niet alles in realtime inspecteren	Low-and-slow aanvallen ontwijken detectie

Frameworks voor risicobeoordeling

Verdedigers gebruiken gestructureerde frameworks om te bepalen wat ze beschermen en hoeveel ze investeren. Door deze frameworks te begrijpen, weet je wat zij als hoge prioriteit (goed verdedigd) en lage prioriteit (minder verdedigd) beschouwen.

De AI-risicomatrix

Verdedigers beoordelen dreigingen doorgaans langs twee assen:

	Lage waarschijnlijkheid	Hoge waarschijnlijkheid
Hoge impact	Geavanceerde aanvallen (activation steering, modelextractie) -- verdedigd indien bekend, vaak genegeerd	Veelvoorkomende jailbreaks, prompt injection -- primaire verdedigingsinvestering
Lage impact	Randgevallen, noviteitsaanvallen -- zelden verdedigd	Spam, laagwaardig misbruik -- geautomatiseerde verdedigingen

Inzicht voor red team: De waardevolste bevindingen leven in het kwadrant "Hoge impact, lage waarschijnlijkheid". Dit zijn de aanvallen die verdedigers in theorie kennen, maar niet hebben geprioriteerd omdat ze onwaarschijnlijk lijken. Aantonen dat ze praktisch uitvoerbaar zijn, verandert de risicocalculatie.

STRIDE voor AI-systemen

Aangepast vanuit traditioneel threat modeling:

Dreiging	AI-manifestatie	Typische verdedigingsprioriteit
Spoofing	Het nabootsen van de autoriteit van de system prompt	Gemiddeld
Tampering	Het wijzigen van de input/context van het model	Hoog
Repudiation	Gebrek aan audit trails voor modelacties	Laag
Information Disclosure	Lekken van de system prompt, extractie van trainingsdata	Gemiddeld-hoog
Denial of Service	Tokenuitputting, overspoeling van het contextvenster	Gemiddeld
Elevation of Privilege	Prompt injection die toegang tot tools verkrijgt	Hoog

De afweging tussen vals-positief en vals-negatief

Dit is de centrale spanning in AI-verdediging. Elk filter heeft een detectiedrempel, en die in welke richting dan ook verschuiven heeft kosten:

More Strict (lower threshold)          More Permissive (higher threshold)
←─────────────────────────────────────────────────────────────────────→
Catches more attacks                   Misses more attacks
Blocks more legitimate users           Better user experience
Higher false positive rate             Higher false negative rate
Users complain, business pushes back   Attacks succeed, security team concerned

De afweging misbruiken

Verdedigers stemmen hun filters doorgaans af op een vals-positief-percentage onder 1%. Dit betekent:

Grensgevallen glippen erdoor -- payloads die er voor 51% goedaardig uitzien, glippen door filters die op een laag VP-percentage zijn afgestemd
Categoriegrenzen zijn vaag -- content die dubbelzinnig is tussen categorieën (educatief vs. schadelijk, fictief vs. instructief) valt erdoor
De drempel varieert per categorie -- categorieën met hoge inzet (CSAM, geweld) hebben strikte drempels; categorieën met lagere inzet (milde grofheid, controversiële meningen) zijn permissiever

Hoe verdedigers prioriteren

Begrijpen wat verdedigers prioriteren, vertelt je waar verdedigingen sterk en waar ze zwak zijn:

Prioriteit 1: Compliance en juridisch risico

Gereguleerde contentcategorieën (CSAM, terrorisme, gereguleerd advies) krijgen de meeste verdedigingsinvestering, omdat falen juridische gevolgen heeft. Dit zijn de moeilijkste categorieën om te omzeilen.

Prioriteit 2: Merk- en reputatierisico

Content die de organisatie in verlegenheid zou brengen als er screenshots van op sociale media worden gedeeld. De dekking loopt sterk uiteen -- verdedigers beschermen tegen voor de hand liggende gevallen, maar missen subtiele of contextafhankelijke gevallen.

Prioriteit 3: Misbruik mogelijk maken

Voorkomen dat het model helpt bij schadelijke activiteiten (wapens, malware, fraude). De dekking is inconsistent, omdat de grens tussen educatieve en faciliterende content subjectief is.

Prioriteit 4: Gegevensbescherming

Voorkomen dat trainingsdata, system prompts of gebruikersdata lekken. Vaak onderbelicht, omdat het risico minder direct aanvoelt dan de risico's van contentgeneratie.

Mentale modellen voor betere red teaming

De "Wat zou ik verdedigen?"-oefening

Vraag jezelf af voordat je een systeem test: als jij de verdediger was, wat zou je dan als eerste beschermen? Wat zou je overslaan? De dingen die je zou overslaan, zijn waarschijnlijk onverdedigd.

Het "Defense Debt"-model

Net als bij technical debt bouwen organisaties defense debt op -- bekende gaten die ze niet hebben aangepakt. Veelvoorkomende oorzaken:

Snelle featureontwikkeling die de security review voorbijstreeft
Nieuwe modaliteiten (afbeeldingen, audio) toegevoegd zonder bijbehorende filters
Tool-integraties die de hoofd-inputpijplijn omzeilen
Legacy-endpoints met oudere (of geen) filtering

De "Laatst geaudit"-heuristiek

Verdedigingen verslechteren in de loop van de tijd naarmate aanvalstechnieken evolueren. Hoe minder recent een verdediging is bijgewerkt, hoe waarschijnlijker het is dat er bekende bypasses voor zijn. Vraag tijdens de scoping: wanneer was de laatste security review van de AI-componenten?

Bevindingen schrijven die aanslaan

Door het perspectief van de verdediger te begrijpen, worden je red team-rapporten ook beter uitvoerbaar:

Kader bevindingen in termen van bedrijfsrisico
Niet "Ik heb het inputfilter omzeild", maar "Een aanvaller kan het model content laten genereren die [specifieke compliance-eis] schendt, wat juridische blootstelling oplevert."
Erken de complexiteit van verdediging
Laat zien dat je de afwegingen begrijpt. Beveel specifieke drempelaanpassingen aan in plaats van een vaag "verbeter de filtering".
Lever reproduceerbare testcases
Verdedigers moeten de fix valideren. Voeg exacte payloads toe, verwacht versus werkelijk gedrag, en bypass-percentages over meerdere pogingen.
Koppel aan hun bestaande framework
Als ze de OWASP Top 10 for LLMs gebruiken, koppel je bevindingen dan aan die categorieën. Spreek hun taal.

Verder lezen

Understanding AI Defenses -- categorieën en de asymmetrie tussen aanvaller en verdediger
Red Team Findings to Remediation -- bevindingen vertalen naar fixes
Threat Modeling for AI Systems -- gestructureerde aanpakken om aanvalsoppervlakken te identificeren

Gerelateerde onderwerpen

Understanding AI Defenses - Verdedigingscategorieën en de asymmetrie tussen aanvaller en verdediger
Het AI-verdedigingslandschap - Tools en leveranciers in elke verdedigingscategorie
Red Team Findings to Remediation - Offensieve bevindingen vertalen naar defensieve aanbevelingen
AI Threat Models - Gestructureerde threat modeling-frameworks voor AI-systemen
Defense-in-Depth for LLM Apps - Strategie voor gelaagde verdediging en waar gaten ontstaan

Referenties

"OWASP Top 10 for LLM Applications" - OWASP (2025) - Industriestandaard-risicoframework dat verdedigers gebruiken om te prioriteren, en dus essentieel voor red teamers om te begrijpen
"NIST AI Risk Management Framework (AI RMF 1.0)" - NIST (2023) - Framework voor risicobeoordeling dat enterprise-verdedigers gebruiken om dreigingen voor AI-systemen te evalueren
"The Precision-Recall Trade-off in Machine Learning" - Saito & Rehmsmeier (2015) - Fundamenteel werk over de afweging van de classificatiedrempel die direct van toepassing is op het afstemmen van contentfilters
"Threat Modeling: Designing for Security" - Shostack, Adam (2014) - Het STRIDE-framework, in de risicobeoordelingssectie van deze pagina aangepast voor AI-systemen

Knowledge Check

Een verdediger heeft zijn contentfilter afgestemd op een vals-positief-percentage van 0,5%. Hoe zou dit als red teamer je payload-ontwerp moeten beïnvloeden?

Denken als een verdediger

Gemiddeld9 min lezenBijgewerkt op 2026-03-13

Mentale modellen voor defensief denken, frameworks voor risicobeoordeling, afwegingen bij verdediging, en waarom je een betere red teamer wordt door het perspectief van de verdediger te begrijpen.

defender-mindset risk-assessment tradeoffs false-positives threat-modeling

De beperkingen van de verdediger

Verdedigers werken onder beperkingen waar aanvallers geen last van hebben. Deze beperkingen creëren systematische blinde vlekken:

Beperking	Impact op verdediging	Kans voor de aanvaller
Budget	Kan niet elke tool inzetten; moet prioriteren	Niet-aangepakte oppervlakken zijn onverdedigd
Latentie	Zwaar filteren verhoogt de responstijd; gebruikers klagen	Realtime filters moeten snel zijn, wat de complexiteit beperkt
Vals-positief-percentage	Het blokkeren van legitieme gebruikers is kostbaar	Verdedigers versoepelen filters, waardoor gaten ontstaan
Onderhoudslast	Regels moeten worden bijgewerkt naarmate aanvallen evolueren	Verouderde regels missen nieuwe technieken
Gebruikerservaring	Te veel beperking drijft gebruikers naar concurrenten	Bedrijfsmatige druk houdt filters permissief
Observability	Kan niet alles in realtime inspecteren	Low-and-slow aanvallen ontwijken detectie

Frameworks voor risicobeoordeling

De AI-risicomatrix

Verdedigers beoordelen dreigingen doorgaans langs twee assen:

	Lage waarschijnlijkheid	Hoge waarschijnlijkheid
Hoge impact	Geavanceerde aanvallen (activation steering, modelextractie) -- verdedigd indien bekend, vaak genegeerd	Veelvoorkomende jailbreaks, prompt injection -- primaire verdedigingsinvestering
Lage impact	Randgevallen, noviteitsaanvallen -- zelden verdedigd	Spam, laagwaardig misbruik -- geautomatiseerde verdedigingen

STRIDE voor AI-systemen

Aangepast vanuit traditioneel threat modeling:

Dreiging	AI-manifestatie	Typische verdedigingsprioriteit
Spoofing	Het nabootsen van de autoriteit van de system prompt	Gemiddeld
Tampering	Het wijzigen van de input/context van het model	Hoog
Repudiation	Gebrek aan audit trails voor modelacties	Laag
Information Disclosure	Lekken van de system prompt, extractie van trainingsdata	Gemiddeld-hoog
Denial of Service	Tokenuitputting, overspoeling van het contextvenster	Gemiddeld
Elevation of Privilege	Prompt injection die toegang tot tools verkrijgt	Hoog

De afweging tussen vals-positief en vals-negatief

Dit is de centrale spanning in AI-verdediging. Elk filter heeft een detectiedrempel, en die in welke richting dan ook verschuiven heeft kosten:

More Strict (lower threshold)          More Permissive (higher threshold)
←─────────────────────────────────────────────────────────────────────→
Catches more attacks                   Misses more attacks
Blocks more legitimate users           Better user experience
Higher false positive rate             Higher false negative rate
Users complain, business pushes back   Attacks succeed, security team concerned

De afweging misbruiken

Verdedigers stemmen hun filters doorgaans af op een vals-positief-percentage onder 1%. Dit betekent:

Grensgevallen glippen erdoor -- payloads die er voor 51% goedaardig uitzien, glippen door filters die op een laag VP-percentage zijn afgestemd
Categoriegrenzen zijn vaag -- content die dubbelzinnig is tussen categorieën (educatief vs. schadelijk, fictief vs. instructief) valt erdoor
De drempel varieert per categorie -- categorieën met hoge inzet (CSAM, geweld) hebben strikte drempels; categorieën met lagere inzet (milde grofheid, controversiële meningen) zijn permissiever

Hoe verdedigers prioriteren

Begrijpen wat verdedigers prioriteren, vertelt je waar verdedigingen sterk en waar ze zwak zijn:

Prioriteit 1: Compliance en juridisch risico

Prioriteit 2: Merk- en reputatierisico

Prioriteit 3: Misbruik mogelijk maken

Voorkomen dat het model helpt bij schadelijke activiteiten (wapens, malware, fraude). De dekking is inconsistent, omdat de grens tussen educatieve en faciliterende content subjectief is.

Prioriteit 4: Gegevensbescherming

Voorkomen dat trainingsdata, system prompts of gebruikersdata lekken. Vaak onderbelicht, omdat het risico minder direct aanvoelt dan de risico's van contentgeneratie.

Mentale modellen voor betere red teaming

De "Wat zou ik verdedigen?"-oefening

Vraag jezelf af voordat je een systeem test: als jij de verdediger was, wat zou je dan als eerste beschermen? Wat zou je overslaan? De dingen die je zou overslaan, zijn waarschijnlijk onverdedigd.

Het "Defense Debt"-model

Net als bij technical debt bouwen organisaties defense debt op -- bekende gaten die ze niet hebben aangepakt. Veelvoorkomende oorzaken:

Snelle featureontwikkeling die de security review voorbijstreeft
Nieuwe modaliteiten (afbeeldingen, audio) toegevoegd zonder bijbehorende filters
Tool-integraties die de hoofd-inputpijplijn omzeilen
Legacy-endpoints met oudere (of geen) filtering

De "Laatst geaudit"-heuristiek

Bevindingen schrijven die aanslaan

Door het perspectief van de verdediger te begrijpen, worden je red team-rapporten ook beter uitvoerbaar:

Kader bevindingen in termen van bedrijfsrisico
Niet "Ik heb het inputfilter omzeild", maar "Een aanvaller kan het model content laten genereren die [specifieke compliance-eis] schendt, wat juridische blootstelling oplevert."
Erken de complexiteit van verdediging
Laat zien dat je de afwegingen begrijpt. Beveel specifieke drempelaanpassingen aan in plaats van een vaag "verbeter de filtering".
Lever reproduceerbare testcases
Verdedigers moeten de fix valideren. Voeg exacte payloads toe, verwacht versus werkelijk gedrag, en bypass-percentages over meerdere pogingen.
Koppel aan hun bestaande framework
Als ze de OWASP Top 10 for LLMs gebruiken, koppel je bevindingen dan aan die categorieën. Spreek hun taal.

Verder lezen

Understanding AI Defenses -- categorieën en de asymmetrie tussen aanvaller en verdediger
Red Team Findings to Remediation -- bevindingen vertalen naar fixes
Threat Modeling for AI Systems -- gestructureerde aanpakken om aanvalsoppervlakken te identificeren

Gerelateerde onderwerpen

Understanding AI Defenses - Verdedigingscategorieën en de asymmetrie tussen aanvaller en verdediger
Het AI-verdedigingslandschap - Tools en leveranciers in elke verdedigingscategorie
Red Team Findings to Remediation - Offensieve bevindingen vertalen naar defensieve aanbevelingen
AI Threat Models - Gestructureerde threat modeling-frameworks voor AI-systemen
Defense-in-Depth for LLM Apps - Strategie voor gelaagde verdediging en waar gaten ontstaan

Referenties

"OWASP Top 10 for LLM Applications" - OWASP (2025) - Industriestandaard-risicoframework dat verdedigers gebruiken om te prioriteren, en dus essentieel voor red teamers om te begrijpen
"NIST AI Risk Management Framework (AI RMF 1.0)" - NIST (2023) - Framework voor risicobeoordeling dat enterprise-verdedigers gebruiken om dreigingen voor AI-systemen te evalueren
"The Precision-Recall Trade-off in Machine Learning" - Saito & Rehmsmeier (2015) - Fundamenteel werk over de afweging van de classificatiedrempel die direct van toepassing is op het afstemmen van contentfilters
"Threat Modeling: Designing for Security" - Shostack, Adam (2014) - Het STRIDE-framework, in de risicobeoordelingssectie van deze pagina aangepast voor AI-systemen

Knowledge Check

Een verdediger heeft zijn contentfilter afgestemd op een vals-positief-percentage van 0,5%. Hoe zou dit als red teamer je payload-ontwerp moeten beïnvloeden?

Denken als een verdediger

Kader bevindingen in termen van bedrijfsrisico

Erken de complexiteit van verdediging

Lever reproduceerbare testcases

Koppel aan hun bestaande framework

Gerelateerde artikelen

Denken als een verdediger

Kader bevindingen in termen van bedrijfsrisico

Erken de complexiteit van verdediging

Lever reproduceerbare testcases

Koppel aan hun bestaande framework

Gerelateerde artikelen