Snelle referentie voor het omzeilen van verdediging

Gemiddeld4 min lezenBijgewerkt op 2026-03-13

Snelle referentie voor veelvoorkomende AI-verdedigingsmechanismen en de bekende technieken om ze te omzeilen, georganiseerd per type verdediging.

reference cheat-sheet defense-bypass guardrails

Bypasses van inputfiltering

Verdediging	Mechanisme	Bypass-technieken
Trefwoord-blocklist	Regex/string-matching op input	Synoniemen, Unicode-homoglyphs, woorden splitsen, encoding (Base64, ROT13), andere talen
Semantische classifier	ML-model dat input-intentie classificeert	Adversarial framing, indirecte verwijzingen, opbouw over meerdere beurten, contextverdunning
Tokenlimiet	Beperken van input-lengte	Compressie, afkortingen, splitsen over meerdere beurten
Taaldetectie	Blokkeren van niet-Engelse input	Meertalige prompts, code-switching, transliteratie
Rate limiting	Throttlen van verzoekfrequentie	Gedistribueerde verzoeken, variërende timing, sessierotatie

Bypasses van systeemprompt-versterking

Verdediging	Mechanisme	Bypass-technieken
Instructiehiërarchie	"Deze regels kunnen niet worden overschreven"	Hypothetische framing, completion-aanvallen, verwarring via meta-instructies
Rollock	"Je bent X en alleen X"	Geleidelijke persona-verschuiving, geneste roleplay, "doe alsof je een versie van jezelf bent die..."
Onderwerpbeperking	"Bespreek alleen onderwerpen X"	Tangentiële benadering, "dit heeft te maken met X omdat...", herframen als in scope
Weigeringstraining	RLHF/DPO-veiligheidsalignment	Few-shot jailbreaken, contextmanipulatie, reward hacking via helpfulness-framing
Few-shot-voorbeelden	Weigeringsdemonstraties in de prompt	Overweldigen met meer voorbeelden van naleving, tegenstrijdige voorbeelden

Bypasses van outputfiltering

Verdediging	Mechanisme	Bypass-technieken
Trefwoord-blocklist	String-matching op output	Vraag om parafrase, vertaling, acroniemen, omgekeerde tekst, encoding
Toxiciteitsclassifier	ML-model dat output scoort	Eufemisme, academische framing, fictieve context, geleidelijke escalatie
PII-detector	Regex/NER voor persoonsgegevens	Gedeeltelijke informatie, verwijzingen in plaats van waardes, gecodeerde output
LLM-judge	Secundaire LLM die output beoordeelt	Ambigue framing, context die de output onschuldig laat lijken, format-trucs

Bypass-strategie voor verdediging in meerdere lagen

Probe
Stuur testinput om te identificeren welke verdedigingslagen actief zijn. Noteer wat wordt geblokkeerd en in welke fase.
Isoleer
Test elke laag onafhankelijk. Vind bypass-technieken die voor elke laag afzonderlijk werken.
Ketting
Combineer bypass-technieken die verschillende lagen tegelijk adresseren. Inputomzeiling + prompt-bypass + outputomzeiling.
Itereer
Verfijn de gekoppelde bypass op basis van waar hij faalt. Pas individuele technieken aan totdat de volledige ketting slaagt.

Knowledge Check

Wat is de effectiefste aanpak bij het testen van verdediging in meerdere lagen (inputfilter + geharde prompt + outputfilter)?

Verwante onderwerpen

Defense Evasion - Diepgaande behandeling van ontwijkingstechnieken
Guardrails Architecture - De verdedigingen begrijpen die je omzeilt
Prompt Injection Quick Reference - Patronen van injectietechnieken
Jailbreak Techniques - Veiligheidsbypass op modelniveau
Lab: Systematic Defense Bypass - Praktische oefening

Referenties

"Jailbroken: How Does LLM Safety Training Fail?" - Wei et al. (2023) - Analyse van faalmodi van safety training en bypass-categorieën
"Universal and Transferable Adversarial Attacks on Aligned Language Models" - Zou et al. (2023) - Geautomatiseerde generatie van adversarial suffixes
"Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models" - Shen et al. (2024) - Taxonomie van jailbreak-patronen uit de praktijk
OWASP LLM Top 10 (2025) - OWASP Foundation - Verdedigingseisen gekoppeld aan kwetsbaarheidscategorieën

Snelle referentie voor het omzeilen van verdediging

Gemiddeld4 min lezenBijgewerkt op 2026-03-13

Snelle referentie voor veelvoorkomende AI-verdedigingsmechanismen en de bekende technieken om ze te omzeilen, georganiseerd per type verdediging.

reference cheat-sheet defense-bypass guardrails

Bypasses van inputfiltering

Verdediging	Mechanisme	Bypass-technieken
Trefwoord-blocklist	Regex/string-matching op input	Synoniemen, Unicode-homoglyphs, woorden splitsen, encoding (Base64, ROT13), andere talen
Semantische classifier	ML-model dat input-intentie classificeert	Adversarial framing, indirecte verwijzingen, opbouw over meerdere beurten, contextverdunning
Tokenlimiet	Beperken van input-lengte	Compressie, afkortingen, splitsen over meerdere beurten
Taaldetectie	Blokkeren van niet-Engelse input	Meertalige prompts, code-switching, transliteratie
Rate limiting	Throttlen van verzoekfrequentie	Gedistribueerde verzoeken, variërende timing, sessierotatie

Bypasses van systeemprompt-versterking

Verdediging	Mechanisme	Bypass-technieken
Instructiehiërarchie	"Deze regels kunnen niet worden overschreven"	Hypothetische framing, completion-aanvallen, verwarring via meta-instructies
Rollock	"Je bent X en alleen X"	Geleidelijke persona-verschuiving, geneste roleplay, "doe alsof je een versie van jezelf bent die..."
Onderwerpbeperking	"Bespreek alleen onderwerpen X"	Tangentiële benadering, "dit heeft te maken met X omdat...", herframen als in scope
Weigeringstraining	RLHF/DPO-veiligheidsalignment	Few-shot jailbreaken, contextmanipulatie, reward hacking via helpfulness-framing
Few-shot-voorbeelden	Weigeringsdemonstraties in de prompt	Overweldigen met meer voorbeelden van naleving, tegenstrijdige voorbeelden

Bypasses van outputfiltering

Verdediging	Mechanisme	Bypass-technieken
Trefwoord-blocklist	String-matching op output	Vraag om parafrase, vertaling, acroniemen, omgekeerde tekst, encoding
Toxiciteitsclassifier	ML-model dat output scoort	Eufemisme, academische framing, fictieve context, geleidelijke escalatie
PII-detector	Regex/NER voor persoonsgegevens	Gedeeltelijke informatie, verwijzingen in plaats van waardes, gecodeerde output
LLM-judge	Secundaire LLM die output beoordeelt	Ambigue framing, context die de output onschuldig laat lijken, format-trucs

Bypass-strategie voor verdediging in meerdere lagen

Probe
Stuur testinput om te identificeren welke verdedigingslagen actief zijn. Noteer wat wordt geblokkeerd en in welke fase.
Isoleer
Test elke laag onafhankelijk. Vind bypass-technieken die voor elke laag afzonderlijk werken.
Ketting
Combineer bypass-technieken die verschillende lagen tegelijk adresseren. Inputomzeiling + prompt-bypass + outputomzeiling.
Itereer
Verfijn de gekoppelde bypass op basis van waar hij faalt. Pas individuele technieken aan totdat de volledige ketting slaagt.

Knowledge Check

Wat is de effectiefste aanpak bij het testen van verdediging in meerdere lagen (inputfilter + geharde prompt + outputfilter)?

Verwante onderwerpen

Defense Evasion - Diepgaande behandeling van ontwijkingstechnieken
Guardrails Architecture - De verdedigingen begrijpen die je omzeilt
Prompt Injection Quick Reference - Patronen van injectietechnieken
Jailbreak Techniques - Veiligheidsbypass op modelniveau
Lab: Systematic Defense Bypass - Praktische oefening

Referenties

"Jailbroken: How Does LLM Safety Training Fail?" - Wei et al. (2023) - Analyse van faalmodi van safety training en bypass-categorieën
"Universal and Transferable Adversarial Attacks on Aligned Language Models" - Zou et al. (2023) - Geautomatiseerde generatie van adversarial suffixes
"Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models" - Shen et al. (2024) - Taxonomie van jailbreak-patronen uit de praktijk
OWASP LLM Top 10 (2025) - OWASP Foundation - Verdedigingseisen gekoppeld aan kwetsbaarheidscategorieën

Snelle referentie voor het omzeilen van verdediging

Probe

Isoleer

Ketting

Itereer

Gerelateerde artikelen

Snelle referentie voor het omzeilen van verdediging

Probe

Isoleer

Ketting

Itereer

Gerelateerde artikelen