AI-redteaming methodologie
Een gestructureerde methodologie voor AI-redteamingopdrachten, met verkenning, het profileren van het doelwit, aanvalsplanning en de tradecraft die professionele beoordelingen onderscheidt.
Effectieve AI-redteaming volgt een gestructureerde methodologie, net als traditionele penetratietesten. Willekeurige prompt injection-pogingen zijn veel minder effectief dan een systematische aanpak die begint met grondige verkenning en geleidelijk toewerkt naar gerichte exploitatie.
De AI-redteaming-levenscyclus
1. Scope & Planning → 2. Reconnaissance → 3. Target Profiling →
4. Attack Planning → 5. Exploitation → 6. Post-Exploitation → 7. Reporting
Fase 1: Scope en planning
Bepaal wat binnen de scope valt, hoe succes eruitziet en welke rules of engagement gelden. AI-specifieke scoping-aandachtspunten zijn:
- Welke modellen en applicaties vallen binnen de scope?
- Is het testen van fine-tuning-/trainingsdata toegestaan?
- Vallen supply chain-aanvallen (modelregistries, dependencies) binnen de scope?
- Wat geldt als een "geslaagde" jailbreak of injectie?
- Hoe worden stochastische resultaten geëvalueerd?
Fase 2: Verkenning
Verzamel informatie over het doelwit zonder rechtstreeks met het AI-systeem te interacteren. Zie Target Profiling.
Fase 3: Doelanalyse
Interacteer met het systeem om het gedrag ervan te begrijpen:
- System Prompt Extraction — Ontdek de instructies en beperkingen van het systeem
- Capability Mapping — Breng in kaart wat het systeem kan, inclusief tools en integraties
Fase 4-7: Aanvallen en rapporteren
Plan aanvallen op basis van de verkenning, voer ze uit, documenteer de resultaten en rapporteer de bevindingen. Zie de Capstone-sectie voor de volledige opdrachtmethodologie.
Belangrijke tradecraft-principes
| Principe | Beschrijving |
|---|---|
| Profileer voordat je aanvalt | Investeer tijd in het begrijpen van het doelwit voordat je exploits probeert |
| Test systematisch | Varieer één parameter tegelijk om te begrijpen wat werkt en waarom |
| Documenteer alles | AI-gedrag is stochastisch — leg exacte prompts, responses en succespercentages vast |
| Gebruik open modellen als proxy | Test technieken op open-weight-modellen voordat je productiesystemen aanvalt |
| Respecteer rate limits | Agressief testen triggert rate limiting en kan verdedigers alarmeren |
Diepte van de verkenning
De diepte van de verkenning bepaalt de kwaliteit van je aanvallen:
| Diepte van verkenning | Wat je leert | Kwaliteit van de aanval |
|---|---|---|
| Geen | "Het is een chatbot" | Willekeurige injectiepogingen |
| Basis | Modelfamilie, zichtbare features | Generieke aanvallen voor dat modeltype |
| Gemiddeld | Systeemprompt, tools, veiligheidsregels | Gerichte aanvallen tegen specifieke verdedigingen |
| Diep | Architectuur, bronnen van trainingsdata, deploymentdetails | Maatwerk-exploits gericht op specifieke zwakheden |
Begin met de pagina's in deze sectie om je verkenningsvaardigheden op te bouwen, en pas ze daarna toe in de context van een volledige opdracht met behulp van de Capstone-methodologie.
Gerelateerde onderwerpen
- Advanced Recon Techniques -- diepere verkenning en methoden om de systeemprompt te extraheren
- Capstone: Full Engagement -- verkenning toepassen in de context van een volledige professionele opdracht
- Defense Evasion -- de verdedigingen omzeilen die tijdens de verkenning zijn geïdentificeerd
- Agent Exploitation -- het in kaart brengen van mogelijkheden benutten om agent-tools te misbruiken
- Target Profiling -- gedetailleerde technieken voor het fingerprinten en profileren van modellen
Referenties
- Greshake et al., "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" (2023) -- indirecte injectie op basis van verkenning
- Perez & Ribeiro, "Ignore This Title and HackAPrompt: Exposing Systemic Weaknesses of LLMs" (2023) -- systematische aanpak om zwakheden van LLM's te ontdekken
- MITRE, "ATLAS: Adversarial Threat Landscape for AI Systems" (2023) -- gestructureerd verkenningsframework voor AI-systemen
Waarom is verkenning belangrijk voordat je prompt injection-aanvallen probeert?