Ethiek van AI-redteaming
Verantwoorde testpraktijken, het vermijden van echte schade, het navigeren van dual-use-vraagstukken en professionele standaarden voor AI-red team-beoefenaars.
De ethische noodzaak
AI-redteaming bestaat in een inherente spanning: je moet als een aanvaller denken om tegen aanvallen te beschermen. De vaardigheden, technieken en bevindingen die redteaming oplevert, zijn van nature dual-use. Een jailbreaktechniek die een ontwikkelaar helpt zijn guardrails te patchen, is dezelfde techniek die een kwaadwillende helpt ze te omzeilen.
Deze spanning is niet uniek voor AI — ze bestaat in al het beveiligingsonderzoek. Maar AI-redteaming voegt nieuwe dimensies toe: de geteste systemen kunnen content genereren die op zichzelf schadelijk is (gewelddadig, misleidend, discriminerend), en de schaal van mogelijk misbruik wordt vergroot door de toegankelijkheid en algemeenheid van AI-systemen.
Principe 1: Autorisatie en scope
Test nooit een systeem zonder expliciete autorisatie. Dat lijkt vanzelfsprekend, maar de toegankelijkheid van AI-systemen (veel zijn beschikbaar via publieke API's) schept een grijs gebied dat bij traditionele doelwitten niet bestaat.
Hoe autorisatie eruitziet
- Commerciële opdrachten: Een ondertekende statement of work of contract waarin scope, rules of engagement en aansprakelijkheid zijn vastgelegd
- Bug bounty-programma's: Gepubliceerde voorwaarden die de soorten testen die je van plan bent uit te voeren expliciet toestaan
- Intern testen: Schriftelijke goedkeuring van de juiste instantie binnen je organisatie
- Onderzoek: Goedkeuring van een ethische toetsingscommissie (IRB) als er menselijke proefpersonen bij betrokken zijn; naleving van het beleid voor verantwoorde openbaarmaking
Veelvoorkomende valkuilen bij autorisatie
| Scenario | Risico | Richtlijn |
|---|---|---|
| Een publieke API testen "voor onderzoek" | Schending van de servicevoorwaarden, mogelijke juridische aansprakelijkheid | Vraag expliciete toestemming of gebruik een lokaal/self-hosted model |
| Het product van een concurrent testen | Beschuldigingen van bedrijfsspionage | Alleen als het is geautoriseerd onder een formeel bug bounty-programma |
| Open-source modellen lokaal testen | Doorgaans laag risico, maar afgeleide uitvoer kan schadelijk zijn | Acceptabel, maar ga verantwoord om met schadelijke uitvoer |
| Jailbreaks delen op social media | Maakt misbruik op schaal mogelijk | Volg in plaats daarvan verantwoorde openbaarmaking |
Principe 2: Beperk echte schade
Redteaming moet schade simuleren, niet veroorzaken. Dit onderscheid vraagt om zorgvuldig nadenken over wat er gebeurt met de uitvoer die je testen oplevert.
Schadevectoren tijdens het testen
Contentschade: Tijdens jailbreaktesten genereer je onvermijdelijk content die gewelddadig, misleidend, discriminerend of anderszins schadelijk is. Deze content bestaat in je logs, je rapporten en mogelijk in de systemen van de aanbieder. Beperk de specificiteit en uitvoerbaarheid van de schadelijke content die je genereert.
Datablootstelling: Extractie van de system prompt of van trainingsdata kan echte PII of bedrijfseigen informatie onthullen. Behandel deze data met dezelfde zorg als alle gevoelige informatie die je tijdens een beveiligingsbeoordeling ontdekt.
Systeemdegradatie: Geautomatiseerd redteaming op schaal kan aanzienlijke rekenkracht verbruiken en de dienst voor andere gebruikers verslechteren. Stem af met de systeemeigenaar en respecteer de afgesproken rate limits.
Psychologische impact: Red team-leden die langere tijd schadelijke content genereren en beoordelen, kunnen psychologische gevolgen ervaren. Organisaties moeten ondersteuning bieden en teamleden laten rouleren over verschillende soorten testen.
Praktische schadebeperking
- Gebruik abstracte of overduidelijk fictieve scenario's bij het testen van categorieën schadelijke content, in plaats van realistische scenario's die als instructies zouden kunnen dienen
- Bewaar schadelijke modeluitvoer niet langer dan nodig is voor rapportage en verificatie
- Redigeer specifieke schadelijke details uit rapporten wanneer de kwetsbaarheid ook zonder die details kan worden aangetoond
- Gebruik nooit de namen, identiteiten of beeltenissen van echte mensen in adversarial testen
- Implementeer procedures voor de omgang met data voor alle PII of gevoelige data die je tijdens het testen blootlegt
Principe 3: Verantwoorde openbaarmaking
Als je een kwetsbaarheid vindt, doet de manier waarop je die bevinding deelt er net zoveel toe als het vinden ervan. Onverantwoorde openbaarmaking kan meer schade aanrichten dan de kwetsbaarheid zelf.
Het spectrum van openbaarmaking
| Aanpak | Beschrijving | Wanneer passend |
|---|---|---|
| Private openbaarmaking | Rechtstreeks rapporteren aan de leverancier/ontwikkelaar en tijd geven om te patchen | Standaard voor de meeste bevindingen |
| Gecoördineerde openbaarmaking | Een tijdlijn afspreken met de leverancier, publiceren na een fix of deadline | Belangrijke bevindingen met publiek belang |
| Beperkte openbaarmaking | Delen met een beperkte groep (bijv. een beveiligingsconsortium) | Wanneer meerdere leveranciers getroffen zijn |
| Volledige publieke openbaarmaking | Alle details publiek maken | Alleen nadat de leverancier redelijke tijd heeft gehad en heeft nagelaten te handelen |
AI-specifieke overwegingen bij openbaarmaking
Bij traditionele openbaarmaking van kwetsbaarheden wordt aangenomen dat een patch het probleem kan verhelpen. AI-kwetsbaarheden zijn vaak fundamenteler — een jailbreak kan een eigenschap misbruiken die inherent is aan hoe taalmodellen werken, en niet een specifieke bug die gepatcht kan worden. Dat verandert de afweging rond openbaarmaking:
- Als een kwetsbaarheid niet volledig gepatcht kan worden, komt publieke openbaarmaking vooral aanvallers ten goede
- Beschrijf de klasse van de kwetsbaarheid en de impact ervan zonder kant-en-klare aanvalspayloads te verstrekken
- Overweeg of de bevinding nieuw is of al breed bekend — het openbaar maken van een techniek die al op social media circuleert dient een ander doel dan het openbaar maken van een nieuwe zeroday
- Werk samen met de leverancier om hun tijdlijn en mogelijkheden voor mitigatie te begrijpen
Principe 4: Navigeer dual-use-vraagstukken
Elke redteaming-techniek is dual-use. De vraag is niet óf die misbruikt zou kunnen worden, maar hoe je de defensieve waarde maximaliseert en het offensieve misbruik minimaliseert.
Het publicatiedilemma
Academische en commerciële red teams staan regelmatig voor de vraag hoeveel ze moeten publiceren. Het beslissingskader zou het volgende moeten meewegen:
- Nieuwheid: Is dit een nieuwe techniek of een variatie op iets dat al publiek is? Nieuwe technieken vragen om zorgvuldiger omgang.
- Uitvoerbaarheid: Biedt publicatie stapsgewijze instructies die de drempel voor misbruik verlagen? Beschrijf de kwetsbaarheid en de impact ervan zonder kant-en-klare exploitcode te verstrekken.
- Defensieve waarde: Heeft de community deze informatie nodig om de verdediging te verbeteren? Technieken die nieuwe detectiemethoden voeden, hebben een hogere publicatiewaarde.
- Reikwijdte van de impact: Treft dit één model of alle modellen? Bredere impact vraagt om zorgvuldiger omgang.
- Beschikbaarheid van mitigatie: Is er een fix uitgerold? Publiceren na mitigatie brengt minder risico met zich mee.
Verantwoorde onderzoekspraktijken
- Stem voor publicatie af met de getroffen leveranciers
- Beschrijf aanvalsmethodologieën op een niveau dat een defensieve reactie mogelijk maakt zonder triviale reproductie mogelijk te maken
- Bied mitigatierichtlijnen aan naast beschrijvingen van kwetsbaarheden
- Houd rekening met het publiek — een paper op een beveiligingsconferentie dient een ander doel dan een Twitter-thread
- Archiveer ruwe uitvoer en gedetailleerde aanvalslogs veilig in plaats van ze te publiceren
Principe 5: Professionele standaarden
AI-redteaming is een beroep, geen hobby. Professioneel gedrag beschermt de beoefenaar, de klant en de bredere community.
Elementen van een gedragscode
Vertrouwelijkheid: Bevindingen behoren toe aan de klant, tenzij anders is afgesproken. Deel nooit klantspecifieke bevindingen zonder expliciete toestemming, ook niet geanonimiseerd. Patronen kunnen kenmerkend genoeg zijn om de bron te identificeren.
Objectiviteit: Rapporteer wat je vindt, niet wat de klant wil horen. Overdrijf bevindingen niet om meer werk te verkopen en bagatelliseer ze niet om lastige gesprekken te vermijden.
Competentie: Aanvaard geen opdrachten die je capaciteiten te boven gaan. AI-redteaming vergt specifieke expertise — een traditionele pentester kan niet zomaar overstappen op AI-testen zonder aanvullende training.
Integriteit: Gebruik kennis die je tijdens een opdracht opdoet niet voor persoonlijk gewin. Als je een lucratieve jailbreak ontdekt, meld je die; je gebruikt hem niet.
Continu leren: Het vakgebied evolueert razendsnel. Technieken die zes maanden geleden werkten, zijn misschien gepatcht, en bij elke modelrelease ontstaan nieuwe aanvalsoppervlakken. Houd je kennis actueel via conferenties, papers en oefening.
Verantwoordelijkheden van de organisatie
Organisaties die AI-red teams runnen, hebben aanvullende verantwoordelijkheden:
- Psychologische veiligheid: Bied geestelijke gezondheidsondersteuning aan teamleden die regelmatig met schadelijke content te maken hebben
- Training: Zorg dat teamleden zowel de technische als de ethische aspecten van het werk begrijpen
- Documentatie: Houd heldere dossiers bij van autorisatie, scope en bevindingen voor juridische bescherming
- Diversiteit: Neem uiteenlopende perspectieven op in het team om schade te herkennen die voor een homogene groep misschien niet zichtbaar is
- Toezicht: Stel toetsingsprocessen in voor bijzonder gevoelige bevindingen of testactiviteiten
Gerelateerde onderwerpen
- Grondbeginselen van red team-methodologie — de levenscyclus van de opdracht die ethische principes sturen
- Juridisch landschap — het juridische kader rondom AI-redteaming
- Taxonomie van AI-aanvallen — inzicht in de aanvallen die je op ethische wijze evalueert
Referenties
- "Ethical Guidelines for AI Red Teaming" - Partnership on AI (2024) - Door de industrie ontwikkelde ethische richtlijnen specifiek voor AI-redteaming-activiteiten
- "The Dual-Use Dilemma in AI Safety Research" - Center for AI Safety (2024) - Analyse van de spanning tussen het publiceren van AI-veiligheidsonderzoek en het mogelijk maken van misbruik
- "Coordinated Vulnerability Disclosure for AI Systems" - CERT/CC (2025) - Richtlijnen voor verantwoorde openbaarmaking van AI-specifieke kwetsbaarheden
- "Psychological Safety in AI Safety Teams" - Anthropic (2024) - Onderzoek naar de psychologische impact van het werken met schadelijke AI-content en strategieën voor organisatorische ondersteuning
Wat is de meest passende eerste stap wanneer je een nieuwe jailbreaktechniek ontdekt die werkt op meerdere AI-modellen?