Purple teaming voor AI

Gevorderd12 min lezenBijgewerkt op 2026-03-15

Samenwerkingsoefeningen tussen aanval en verdediging voor AI-systemen: het structureren van purple team-engagements, realtime kennisoverdracht, gezamenlijke aanvalssimulatie en het meten van defensieve verbetering via iteratief testen.

purple-team collaboration defense attack methodology tradecraft advanced

Traditionele redteaming is adversarial: het red team valt aan, het blue team verdedigt en bevindingen worden gedeeld nadat de engagement eindigt. Purple teaming haalt die tijdlijn weg. Aanval en verdediging gebeuren tegelijk, met realtime kennisoverdracht die zowel offensieve ontdekking als defensieve verbetering versnelt.

Voor AI-systemen is purple teaming bijzonder waardevol omdat AI-verdedigingen vaak realtime aan te passen zijn: system prompts kunnen worden herschreven, guardrail-classifiers kunnen worden hertraind en output-filters kunnen worden bijgewerkt zonder dat het onderliggende model opnieuw uitgerold hoeft te worden. Dit maakt een snelle cyclus van itereren en testen mogelijk die de traditionele infrastructuurbeveiliging niet kan evenaren.

Waarom purple teaming voor AI

Het snelheidsvoordeel

AI-verdedigingen zijn vaak binnen enkele minuten aan te passen en te testen:

Verdedigingslaag	Tijd voor aanpassing	Traditioneel equivalent
Verharden van system prompt	Minuten	Aanpassen van firewall-regels (uren)
Toevoegen van inputfilter-regel	Minuten tot uren	Deployen van WAF-regel (uren tot dagen)
Hertrainen van output-classifier	Uren tot dagen	Updaten van IDS-signature (dagen)
Tunen van guardrail-drempels	Minuten	Netwerksegmentatie (weken)
Fine-tuning / safety-training van model	Dagen tot weken	Wijzigen van applicatiecode (weken)

Deze snelle doorlooptijd maakt realtime samenwerkingstesten praktisch haalbaar. Het red team demonstreert een aanval, het blue team implementeert een verdediging en het red team test direct of de verdediging standhoudt.

Het voordeel van kennisoverdracht

Bij traditionele redteaming worden bevindingen weken na de ontdekking in een rapport opgeleverd. Tegen die tijd is de context verloren, kan het systeem zijn veranderd en moet het verdedigende team het aanvalsscenario reconstrueren op basis van documentatie. Purple teaming elimineert die kloof:

Verdedigers zien aanvallen realtime en begrijpen de methodologie van de aanvaller
Aanvallers zien geïmplementeerde verdedigingen en kunnen direct hun effectiviteit beoordelen
Beide teams ontwikkelen intuïtie voor de aanval-verdedigingsdynamiek die specifiek is voor hun systeem
Nieuwe defensieve benaderingen kunnen direct worden getest in plaats van theoretisch te blijven

Structuur van oefeningen

Formaatopties

Formaat	Duur	Geschikt voor
Sprintsessie	2-4 uur	Specifieke aanvalscategorieën testen tegen specifieke verdedigingen
Dagoefening	Hele dag	Uitgebreide assessment van één systeem of feature
Meerdaagse campagne	2-5 dagen	Full-stack-assessment met iteratieve verbetering van verdedigingen
Ingebed programma	Doorlopend	Continue verbetering geïntegreerd in de development-cyclus

Structuur van een sprintsessie

Een typische sprintsessie van 3 uur:

Uur 1: Baseline-assessment (red team leidt)

Het red team demonstreert 3-5 aanvalstechnieken tegen het huidige systeem
Het blue team observeert en maakt aantekeningen over welke aanvallen slagen en waarom
Beide teams bespreken het aanvalsoppervlak en prioriteren welke bypasses als eerste worden aangepakt

Uur 2: Implementatie van verdedigingen (blue team leidt)

Het blue team implementeert verdedigingen voor de bypasses met de hoogste prioriteit
Het red team geeft input over de vraag of voorgestelde verdedigingen de aanval daadwerkelijk blokkeren of slechts een kleine variatie afdwingen
Verdedigingen worden uitgerold naar de testomgeving

Uur 3: Validatie en iteratie (gezamenlijk)

Het red team test opnieuw met de verdedigingen op hun plek
Voor elke verdediging: werkt de oorspronkelijke aanval nog steeds? Kunnen simpele variaties hem omzeilen?
Het blue team past verdedigingen aan op basis van validatieresultaten
Laatste testronde om verbeteringen te bevestigen
Beide teams documenteren bevindingen, defensieve verbeteringen en resterende gaten

Structuur van een dagoefening

Een hele dag voegt diepte toe:

Ochtend: verkenning en baseline

Het red team voert verkenning uit en brengt het huidige aanvalsoppervlak in kaart
Het blue team licht bestaande verdedigingen, bekende beperkingen en recente wijzigingen toe
Gezamenlijke threat-modelingsessie om testgebieden te prioriteren

Middag: aanval-verdedigingsronden

Drie iteratieve rondes van aanval, implementatie van verdediging en validatie
Elke ronde richt zich op een andere aanvalscategorie (bijv. ronde 1: directe injection, ronde 2: misbruik van tools, ronde 3: data-exfiltratie)
Volg de metrieken: initiële bypass-rate, bypass-rate na verdediging, implementatietijd van verdedigingen

Late middag: gevorderde scenario's en afronding

Het red team probeert gecombineerde/geketende aanvallen met technieken uit alle categorieën
Het blue team beoordeelt of de interactie tussen verdedigingen nieuwe kwetsbaarheden creëert
Gezamenlijke debrief waarin verbeteringen, resterende gaten en actiepunten worden gedocumenteerd

AI-specifieke oefenscenario's

Scenario 1: system prompt verharden

Doel: Een system prompt iteratief verharden tegen injection-aanvallen.

Ronde 1: Het red team test de baseline-system-prompt met vijf injection-technieken. Leg de bypass-rates vast.

Ronde 2: Het blue team herschrijft de system prompt met anti-override-formuleringen, rolbevestiging en herhaling van instructies. Het red team test opnieuw.

Ronde 3: Het red team past technieken aan (langere payloads, formaat-imitatie, multi-turn). Het blue team voegt input-classificatie toe. Hertesten.

Ronde 4: Het red team combineert encoding met injection om de classifier te ontwijken. Het blue team voegt input-normalisatie toe. Hertesten.

Metriek: Volg de afname van de bypass-rate over de ronden. Een geslaagde oefening laat afnemende bypass-rates per iteratie zien.

Scenario 2: guardrails omzeilen en verharden

Doel: Input-/output-guardrail-classifiers testen en verbeteren.

Ronde 1: Red team identificeert technieken om guardrails te omzeilen
         (encoding, parafrasering, indirecte verwijzing)
  ↓
Ronde 2: Blue team hertraint de classifier met de bypass-voorbeelden
         van het red team als trainingsdata
  ↓
Ronde 3: Red team genereert nieuwe bypass-varianten die niet door de
         hertraining gedekt zijn
  ↓
Ronde 4: Blue team voegt structurele detectie toe (niet alleen content)
         om nieuwe varianten te vangen
  ↓
Herhaal tot de bypass-rate zich stabiliseert op een acceptabel niveau

Scenario 3: testen van tool-autorisatie

Doel: Valideren dat tool-autorisatiecontroles voorkomen dat injection misbruik veroorzaakt.

Het red team probeert via prompt injection ongeautoriseerde tools aan te roepen
Het blue team implementeert en tunet de regels voor tool-autorisatie
Beide teams brengen de volledige set tool-acties in kaart die via injection bereikbaar is
Herhaal totdat alle ongeautoriseerde toegangspaden voor tools zijn geblokkeerd of menselijke goedkeuring vereisen

Scenario 4: oefening rond vertrouwensgrenzen in multi-agent

Doel: Vertrouwensgrenzen in multi-agent-architecturen testen.

Het red team probeert privileges te escaleren via overdrachten tussen agents
Het blue team implementeert contextsanitatie tussen agents
Test of sanitatie naast aanvallen ook legitieme informatieoverdracht blokkeert
Itereer om de balans te vinden tussen veiligheid en functionaliteit

Verbetering meten

Kwantitatieve metrieken

Volg deze metrieken over purple team-oefeningen om voortgang te meten:

Metriek	Hoe te meten	Wat het aanduidt
Delta van bypass-rate	(Initiële bypass-rate - finale bypass-rate) per techniek	Defensieve verbetering per oefening
Weerbaarheid tegen nieuwe technieken	Bypass-rate voor technieken die niet tijdens de oefening getoond zijn	Of verdedigingen generaliseren voorbij de getrainde aanvallen
Implementatietijd verdediging	Tijd van demonstratie van aanval tot functionele verdediging	Reactievermogen van het blue team
Adaptatietijd aanval	Tijd van uitrol van verdediging tot bypass	Adaptief vermogen van het red team
False positive-rate	Legitieme requests geblokkeerd door nieuwe verdedigingen	Bruikbaarheidskosten van security-verbeteringen
Cumulatieve verharding	Trend van bypass-rate over meerdere oefeningen	Verbetering van de langetermijnsecurityhouding

Kwalitatieve metrieken

Score voor kennisoverdracht: Kan het blue team uitleggen waaróm elke aanval werkt, niet alleen dát hij werkt?
Defensieve creativiteit: Ontwikkelt het blue team nieuwe verdedigingen of patcht het alleen specifieke aanvalspatronen?
Aanvalsdiversiteit: Breidt het red team techniekcategorieën uit of herhaalt het bekende benaderingen?
Kwaliteit van samenwerking: Delen beide teams productief inzichten of werken ze parallel langs elkaar?

Voortgang volgen in de tijd

Oefening 1 (januari):
  Directe injection-baseline:   85% bypass-rate
  Na oefening:                  40% bypass-rate
  Verbetering:                  45 procentpunten

Oefening 2 (februari):
  Directe injection:            35% bypass-rate (gehandhaafd uit O1)
  Multi-turn injection:         70% bypass-rate (nieuwe categorie)
  Multi-turn na oefening:       30% bypass-rate
  Verbetering:                  40 procentpunten

Oefening 3 (maart):
  Directe injection:            30% bypass-rate (verdere verbetering)
  Multi-turn injection:         25% bypass-rate (gehandhaafd uit O2)
  Encoding-bypass:              60% bypass-rate (nieuwe categorie)
  Encoding na oefening:         20% bypass-rate
  Algemene trend:               Afnemende baseline-bypass-rates
                                in alle categorieën

Teamsamenstelling en rollen

Rollen in een purple team

Rol	Verantwoordelijkheden
Oefeningsleider	Faciliteert de sessie, bewaakt de tijd en borgt kennisoverdracht
Red team-operator	Demonstreert aanvallen, past zich aan verdedigingen aan en genereert nieuwe varianten
Blue team-engineer	Implementeert verdedigingen, tunet guardrails en past system prompts aan
Observator/notulist	Documenteert bevindingen, volgt metrieken en legt geleerde lessen vast
Systeemeigenaar	Geeft context over businesseisen en keurt wijzigingen goed

Communicatieprotocollen

Effectieve purple teaming vereist gestructureerde communicatie:

Realtime narratie. Het red team verwoordt zijn aanpak: "Ik ga een delimiter-escape proberen met XML-tag-closure. De hypothese is dat de system prompt user input in XML-tags wikkelt."

Onderbouwing van verdediging. Het blue team legt zijn defensieve logica uit: "Ik voeg input-sanitatie toe die afsluitende XML-tags uit user input strippt. Dit zou de tag-closure-techniek moeten voorkomen, maar kan legitieme XML-content breken."

Eerlijke beoordeling. Beide teams moeten openhartig zijn. Voelt een verdediging broos? Zeg het. Steunt een aanval op een onrealistische randvoorwaarde? Erken dat.

Veelvoorkomende anti-patronen

Verdediging op één specifieke patch. Het blue team fixt alleen de exacte payload die het red team toonde. De fix zou moeten generaliseren naar de aanvalscategorie, niet alleen die specifieke payload.

Tunnelvisie bij het red team. Het red team blijft variaties van één techniek proberen in plaats van te wisselen naar andere aanvalscategorieën. Breedte is even belangrijk als diepte.

De "waarom"-discussie overslaan. Een verdediging implementeren zonder te bespreken waarom de aanval werkte. Begrip van de root cause levert robuustere verdedigingen op.

Geen baseline-meting. De oefening starten zonder de initiële bypass-rate te meten. Zonder baseline is verbetering niet kwantificeerbaar.

Overfilteren. Zulke agressieve verdedigingen implementeren dat legitieme gebruikersverzoeken geblokkeerd worden. Meet altijd de false positive-rate naast de bypass-rate.

Probeer het zelf

Practice

Oefening: voer een mini purple team-sprint uit

Voer met een partner een purple team-oefening van 90 minuten uit.

Stap 1
Zet een testchatbot op met een eenvoudige system prompt en een duidelijke gedragsrestrictie. Eén persoon neemt de red team-rol, de ander de blue team-rol. Meet de baseline-bypass-rate voor drie injection-technieken.
Stap 2
Het red team demonstreert de meest effectieve techniek. Het blue team past de system prompt aan om hem af te weren. Het red team test opnieuw en legt de nieuwe bypass-rate vast.
Stap 3
Doorloop drie volledige aanval-verdediging-validatie-rondes, waarbij het red team per ronde technieken aanpast. Volg de verandering in bypass-rate over alle ronden. Wissel na de laatste ronde van rol en herhaal.

Succescriteria: Je hebt bypass-rate-data voor minstens drie rondes die de trend van defensieve verbetering laten zien, en beide deelnemers kunnen uitleggen waarom elke verdediging wel of niet werkte.

Verwante onderwerpen

Red team-methodologie - Het overkoepelende engagement-framework
Continue redteaming - Purple teaming-principes toegepast op doorlopende programma's
Bewijsverzameling - Bevindingen vastleggen tijdens oefeningen
Guardrails en filtering - Verdedigingen die in purple-oefeningen worden getest en verbeterd

Referenties

Oakley, C. (2019). "Purple Team Field Manual" - Fundamentele purple team-methodologie
MITRE (2024). ATLAS - Adversarial Threat Landscape for AI Systems
Anthropic (2024). "Challenges in Red Teaming AI Systems"
Microsoft (2024). "Planning Red Teaming for Large Language Models and Their Applications"
OWASP (2025). OWASP Top 10 for LLM Applications

Knowledge Check

Wat is het belangrijkste voordeel van purple teaming ten opzichte van traditionele redteaming voor AI-systemen?

Purple teaming voor AI

Gevorderd12 min lezenBijgewerkt op 2026-03-15

purple-team collaboration defense attack methodology tradecraft advanced

Waarom purple teaming voor AI

Het snelheidsvoordeel

AI-verdedigingen zijn vaak binnen enkele minuten aan te passen en te testen:

Verdedigingslaag	Tijd voor aanpassing	Traditioneel equivalent
Verharden van system prompt	Minuten	Aanpassen van firewall-regels (uren)
Toevoegen van inputfilter-regel	Minuten tot uren	Deployen van WAF-regel (uren tot dagen)
Hertrainen van output-classifier	Uren tot dagen	Updaten van IDS-signature (dagen)
Tunen van guardrail-drempels	Minuten	Netwerksegmentatie (weken)
Fine-tuning / safety-training van model	Dagen tot weken	Wijzigen van applicatiecode (weken)

Het voordeel van kennisoverdracht

Verdedigers zien aanvallen realtime en begrijpen de methodologie van de aanvaller
Aanvallers zien geïmplementeerde verdedigingen en kunnen direct hun effectiviteit beoordelen
Beide teams ontwikkelen intuïtie voor de aanval-verdedigingsdynamiek die specifiek is voor hun systeem
Nieuwe defensieve benaderingen kunnen direct worden getest in plaats van theoretisch te blijven

Structuur van oefeningen

Formaatopties

Formaat	Duur	Geschikt voor
Sprintsessie	2-4 uur	Specifieke aanvalscategorieën testen tegen specifieke verdedigingen
Dagoefening	Hele dag	Uitgebreide assessment van één systeem of feature
Meerdaagse campagne	2-5 dagen	Full-stack-assessment met iteratieve verbetering van verdedigingen
Ingebed programma	Doorlopend	Continue verbetering geïntegreerd in de development-cyclus

Structuur van een sprintsessie

Een typische sprintsessie van 3 uur:

Uur 1: Baseline-assessment (red team leidt)

Het red team demonstreert 3-5 aanvalstechnieken tegen het huidige systeem
Het blue team observeert en maakt aantekeningen over welke aanvallen slagen en waarom
Beide teams bespreken het aanvalsoppervlak en prioriteren welke bypasses als eerste worden aangepakt

Uur 2: Implementatie van verdedigingen (blue team leidt)

Het blue team implementeert verdedigingen voor de bypasses met de hoogste prioriteit
Het red team geeft input over de vraag of voorgestelde verdedigingen de aanval daadwerkelijk blokkeren of slechts een kleine variatie afdwingen
Verdedigingen worden uitgerold naar de testomgeving

Uur 3: Validatie en iteratie (gezamenlijk)

Het red team test opnieuw met de verdedigingen op hun plek
Voor elke verdediging: werkt de oorspronkelijke aanval nog steeds? Kunnen simpele variaties hem omzeilen?
Het blue team past verdedigingen aan op basis van validatieresultaten
Laatste testronde om verbeteringen te bevestigen
Beide teams documenteren bevindingen, defensieve verbeteringen en resterende gaten

Structuur van een dagoefening

Een hele dag voegt diepte toe:

Ochtend: verkenning en baseline

Het red team voert verkenning uit en brengt het huidige aanvalsoppervlak in kaart
Het blue team licht bestaande verdedigingen, bekende beperkingen en recente wijzigingen toe
Gezamenlijke threat-modelingsessie om testgebieden te prioriteren

Middag: aanval-verdedigingsronden

Drie iteratieve rondes van aanval, implementatie van verdediging en validatie
Elke ronde richt zich op een andere aanvalscategorie (bijv. ronde 1: directe injection, ronde 2: misbruik van tools, ronde 3: data-exfiltratie)
Volg de metrieken: initiële bypass-rate, bypass-rate na verdediging, implementatietijd van verdedigingen

Late middag: gevorderde scenario's en afronding

Het red team probeert gecombineerde/geketende aanvallen met technieken uit alle categorieën
Het blue team beoordeelt of de interactie tussen verdedigingen nieuwe kwetsbaarheden creëert
Gezamenlijke debrief waarin verbeteringen, resterende gaten en actiepunten worden gedocumenteerd

AI-specifieke oefenscenario's

Scenario 1: system prompt verharden

Doel: Een system prompt iteratief verharden tegen injection-aanvallen.

Ronde 1: Het red team test de baseline-system-prompt met vijf injection-technieken. Leg de bypass-rates vast.

Ronde 2: Het blue team herschrijft de system prompt met anti-override-formuleringen, rolbevestiging en herhaling van instructies. Het red team test opnieuw.

Ronde 3: Het red team past technieken aan (langere payloads, formaat-imitatie, multi-turn). Het blue team voegt input-classificatie toe. Hertesten.

Ronde 4: Het red team combineert encoding met injection om de classifier te ontwijken. Het blue team voegt input-normalisatie toe. Hertesten.

Metriek: Volg de afname van de bypass-rate over de ronden. Een geslaagde oefening laat afnemende bypass-rates per iteratie zien.

Scenario 2: guardrails omzeilen en verharden

Doel: Input-/output-guardrail-classifiers testen en verbeteren.

Ronde 1: Red team identificeert technieken om guardrails te omzeilen
         (encoding, parafrasering, indirecte verwijzing)
  ↓
Ronde 2: Blue team hertraint de classifier met de bypass-voorbeelden
         van het red team als trainingsdata
  ↓
Ronde 3: Red team genereert nieuwe bypass-varianten die niet door de
         hertraining gedekt zijn
  ↓
Ronde 4: Blue team voegt structurele detectie toe (niet alleen content)
         om nieuwe varianten te vangen
  ↓
Herhaal tot de bypass-rate zich stabiliseert op een acceptabel niveau

Scenario 3: testen van tool-autorisatie

Doel: Valideren dat tool-autorisatiecontroles voorkomen dat injection misbruik veroorzaakt.

Het red team probeert via prompt injection ongeautoriseerde tools aan te roepen
Het blue team implementeert en tunet de regels voor tool-autorisatie
Beide teams brengen de volledige set tool-acties in kaart die via injection bereikbaar is
Herhaal totdat alle ongeautoriseerde toegangspaden voor tools zijn geblokkeerd of menselijke goedkeuring vereisen

Scenario 4: oefening rond vertrouwensgrenzen in multi-agent

Doel: Vertrouwensgrenzen in multi-agent-architecturen testen.

Het red team probeert privileges te escaleren via overdrachten tussen agents
Het blue team implementeert contextsanitatie tussen agents
Test of sanitatie naast aanvallen ook legitieme informatieoverdracht blokkeert
Itereer om de balans te vinden tussen veiligheid en functionaliteit

Verbetering meten

Kwantitatieve metrieken

Volg deze metrieken over purple team-oefeningen om voortgang te meten:

Metriek	Hoe te meten	Wat het aanduidt
Delta van bypass-rate	(Initiële bypass-rate - finale bypass-rate) per techniek	Defensieve verbetering per oefening
Weerbaarheid tegen nieuwe technieken	Bypass-rate voor technieken die niet tijdens de oefening getoond zijn	Of verdedigingen generaliseren voorbij de getrainde aanvallen
Implementatietijd verdediging	Tijd van demonstratie van aanval tot functionele verdediging	Reactievermogen van het blue team
Adaptatietijd aanval	Tijd van uitrol van verdediging tot bypass	Adaptief vermogen van het red team
False positive-rate	Legitieme requests geblokkeerd door nieuwe verdedigingen	Bruikbaarheidskosten van security-verbeteringen
Cumulatieve verharding	Trend van bypass-rate over meerdere oefeningen	Verbetering van de langetermijnsecurityhouding

Kwalitatieve metrieken

Score voor kennisoverdracht: Kan het blue team uitleggen waaróm elke aanval werkt, niet alleen dát hij werkt?
Defensieve creativiteit: Ontwikkelt het blue team nieuwe verdedigingen of patcht het alleen specifieke aanvalspatronen?
Aanvalsdiversiteit: Breidt het red team techniekcategorieën uit of herhaalt het bekende benaderingen?
Kwaliteit van samenwerking: Delen beide teams productief inzichten of werken ze parallel langs elkaar?

Voortgang volgen in de tijd

Oefening 1 (januari):
  Directe injection-baseline:   85% bypass-rate
  Na oefening:                  40% bypass-rate
  Verbetering:                  45 procentpunten

Oefening 2 (februari):
  Directe injection:            35% bypass-rate (gehandhaafd uit O1)
  Multi-turn injection:         70% bypass-rate (nieuwe categorie)
  Multi-turn na oefening:       30% bypass-rate
  Verbetering:                  40 procentpunten

Oefening 3 (maart):
  Directe injection:            30% bypass-rate (verdere verbetering)
  Multi-turn injection:         25% bypass-rate (gehandhaafd uit O2)
  Encoding-bypass:              60% bypass-rate (nieuwe categorie)
  Encoding na oefening:         20% bypass-rate
  Algemene trend:               Afnemende baseline-bypass-rates
                                in alle categorieën

Teamsamenstelling en rollen

Rollen in een purple team

Rol	Verantwoordelijkheden
Oefeningsleider	Faciliteert de sessie, bewaakt de tijd en borgt kennisoverdracht
Red team-operator	Demonstreert aanvallen, past zich aan verdedigingen aan en genereert nieuwe varianten
Blue team-engineer	Implementeert verdedigingen, tunet guardrails en past system prompts aan
Observator/notulist	Documenteert bevindingen, volgt metrieken en legt geleerde lessen vast
Systeemeigenaar	Geeft context over businesseisen en keurt wijzigingen goed

Communicatieprotocollen

Effectieve purple teaming vereist gestructureerde communicatie:

Realtime narratie. Het red team verwoordt zijn aanpak: "Ik ga een delimiter-escape proberen met XML-tag-closure. De hypothese is dat de system prompt user input in XML-tags wikkelt."

Eerlijke beoordeling. Beide teams moeten openhartig zijn. Voelt een verdediging broos? Zeg het. Steunt een aanval op een onrealistische randvoorwaarde? Erken dat.

Veelvoorkomende anti-patronen

Tunnelvisie bij het red team. Het red team blijft variaties van één techniek proberen in plaats van te wisselen naar andere aanvalscategorieën. Breedte is even belangrijk als diepte.

De "waarom"-discussie overslaan. Een verdediging implementeren zonder te bespreken waarom de aanval werkte. Begrip van de root cause levert robuustere verdedigingen op.

Geen baseline-meting. De oefening starten zonder de initiële bypass-rate te meten. Zonder baseline is verbetering niet kwantificeerbaar.

Overfilteren. Zulke agressieve verdedigingen implementeren dat legitieme gebruikersverzoeken geblokkeerd worden. Meet altijd de false positive-rate naast de bypass-rate.

Probeer het zelf

Practice

Oefening: voer een mini purple team-sprint uit

Voer met een partner een purple team-oefening van 90 minuten uit.

Stap 1
Zet een testchatbot op met een eenvoudige system prompt en een duidelijke gedragsrestrictie. Eén persoon neemt de red team-rol, de ander de blue team-rol. Meet de baseline-bypass-rate voor drie injection-technieken.
Stap 2
Het red team demonstreert de meest effectieve techniek. Het blue team past de system prompt aan om hem af te weren. Het red team test opnieuw en legt de nieuwe bypass-rate vast.
Stap 3
Doorloop drie volledige aanval-verdediging-validatie-rondes, waarbij het red team per ronde technieken aanpast. Volg de verandering in bypass-rate over alle ronden. Wissel na de laatste ronde van rol en herhaal.

Verwante onderwerpen

Red team-methodologie - Het overkoepelende engagement-framework
Continue redteaming - Purple teaming-principes toegepast op doorlopende programma's
Bewijsverzameling - Bevindingen vastleggen tijdens oefeningen
Guardrails en filtering - Verdedigingen die in purple-oefeningen worden getest en verbeterd

Referenties

Oakley, C. (2019). "Purple Team Field Manual" - Fundamentele purple team-methodologie
MITRE (2024). ATLAS - Adversarial Threat Landscape for AI Systems
Anthropic (2024). "Challenges in Red Teaming AI Systems"
Microsoft (2024). "Planning Red Teaming for Large Language Models and Their Applications"
OWASP (2025). OWASP Top 10 for LLM Applications

Knowledge Check

Wat is het belangrijkste voordeel van purple teaming ten opzichte van traditionele redteaming voor AI-systemen?

Purple teaming voor AI

Gerelateerde artikelen

Purple teaming voor AI

Gerelateerde artikelen