Snelle referentie voor het omzeilen van verdediging
Gemiddeld4 min lezenBijgewerkt op 2026-03-13
Snelle referentie voor veelvoorkomende AI-verdedigingsmechanismen en de bekende technieken om ze te omzeilen, georganiseerd per type verdediging.
Bypasses van inputfiltering
| Verdediging | Mechanisme | Bypass-technieken |
|---|---|---|
| Trefwoord-blocklist | Regex/string-matching op input | Synoniemen, Unicode-homoglyphs, woorden splitsen, encoding (Base64, ROT13), andere talen |
| Semantische classifier | ML-model dat input-intentie classificeert | Adversarial framing, indirecte verwijzingen, opbouw over meerdere beurten, contextverdunning |
| Tokenlimiet | Beperken van input-lengte | Compressie, afkortingen, splitsen over meerdere beurten |
| Taaldetectie | Blokkeren van niet-Engelse input | Meertalige prompts, code-switching, transliteratie |
| Rate limiting | Throttlen van verzoekfrequentie | Gedistribueerde verzoeken, variërende timing, sessierotatie |
Bypasses van systeemprompt-versterking
| Verdediging | Mechanisme | Bypass-technieken |
|---|---|---|
| Instructiehiërarchie | "Deze regels kunnen niet worden overschreven" | Hypothetische framing, completion-aanvallen, verwarring via meta-instructies |
| Rollock | "Je bent X en alleen X" | Geleidelijke persona-verschuiving, geneste roleplay, "doe alsof je een versie van jezelf bent die..." |
| Onderwerpbeperking | "Bespreek alleen onderwerpen X" | Tangentiële benadering, "dit heeft te maken met X omdat...", herframen als in scope |
| Weigeringstraining | RLHF/DPO-veiligheidsalignment | Few-shot jailbreaken, contextmanipulatie, reward hacking via helpfulness-framing |
| Few-shot-voorbeelden | Weigeringsdemonstraties in de prompt | Overweldigen met meer voorbeelden van naleving, tegenstrijdige voorbeelden |
Bypasses van outputfiltering
| Verdediging | Mechanisme | Bypass-technieken |
|---|---|---|
| Trefwoord-blocklist | String-matching op output | Vraag om parafrase, vertaling, acroniemen, omgekeerde tekst, encoding |
| Toxiciteitsclassifier | ML-model dat output scoort | Eufemisme, academische framing, fictieve context, geleidelijke escalatie |
| PII-detector | Regex/NER voor persoonsgegevens | Gedeeltelijke informatie, verwijzingen in plaats van waardes, gecodeerde output |
| LLM-judge | Secundaire LLM die output beoordeelt | Ambigue framing, context die de output onschuldig laat lijken, format-trucs |
Bypass-strategie voor verdediging in meerdere lagen
Probe
Stuur testinput om te identificeren welke verdedigingslagen actief zijn. Noteer wat wordt geblokkeerd en in welke fase.
Isoleer
Test elke laag onafhankelijk. Vind bypass-technieken die voor elke laag afzonderlijk werken.
Ketting
Combineer bypass-technieken die verschillende lagen tegelijk adresseren. Inputomzeiling + prompt-bypass + outputomzeiling.
Itereer
Verfijn de gekoppelde bypass op basis van waar hij faalt. Pas individuele technieken aan totdat de volledige ketting slaagt.
Knowledge Check
Wat is de effectiefste aanpak bij het testen van verdediging in meerdere lagen (inputfilter + geharde prompt + outputfilter)?
Verwante onderwerpen
- Defense Evasion - Diepgaande behandeling van ontwijkingstechnieken
- Guardrails Architecture - De verdedigingen begrijpen die je omzeilt
- Prompt Injection Quick Reference - Patronen van injectietechnieken
- Jailbreak Techniques - Veiligheidsbypass op modelniveau
- Lab: Systematic Defense Bypass - Praktische oefening
Referenties
- "Jailbroken: How Does LLM Safety Training Fail?" - Wei et al. (2023) - Analyse van faalmodi van safety training en bypass-categorieën
- "Universal and Transferable Adversarial Attacks on Aligned Language Models" - Zou et al. (2023) - Geautomatiseerde generatie van adversarial suffixes
- "Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models" - Shen et al. (2024) - Taxonomie van jailbreak-patronen uit de praktijk
- OWASP LLM Top 10 (2025) - OWASP Foundation - Verdedigingseisen gekoppeld aan kwetsbaarheidscategorieën