Catalogus van jailbreak-technieken
Uitgebreide catalogus van jailbreak-technieken met effectiviteitsbeoordelingen, opmerkingen over modelcompatibiliteit en evolutiegeschiedenis.
Catalogus van jailbreak-technieken
Deze catalogus documenteert jailbreak-technieken met effectiviteitsbeoordelingen gebaseerd op gerapporteerde succespercentages tegen moderne veiligheidsgetrainde modellen. De effectiviteit neemt af naarmate modelproviders bekende technieken patchen -- beoordelingen weerspiegelen de algemene categorie-effectiviteit, niet specifieke prompts.
Effectiviteitsbeoordelingsschaal
| Beoordeling | Betekenis |
|---|---|
| Hoog | Vaak effectief tegen huidige modellen met matige inspanning |
| Gemiddeld | Soms effectief; vereist mogelijk meerdere pogingen of modelspecifieke afstemming |
| Laag | Zelden effectief tegen huidige modellen; meestal gepatcht maar de moeite waard om te testen |
| Variabel | Effectiviteit hangt sterk af van modelfamilie, versie en configuratie |
Op rollenspel gebaseerde jailbreaks
Deze maken misbruik van de instructievolg- en karakterconsistentievaardigheden van het model.
DAN (Do Anything Now)
| Attribuut | Detail |
|---|---|
| Categorie | Rollenspel / persona-override |
| Effectiviteit | Laag tegen huidige frontier-modellen; gemiddeld tegen kleinere/oudere modellen |
| Mechanisme | Instrueert het model om een persona ("DAN") aan te nemen zonder beperkingen, vaak met token-gebaseerde compliance-scoring |
| Evolutie | DAN v1 tot en met v12+, waarbij elke iteratie probeert patches van vorige versies te omzeilen |
| Waarom het werkte | Maakte misbruik van de helpfulness-training van het model en de neiging om toegewezen persona's vol te houden |
| Huidige status | Zwaar gepatcht in frontier-modellen. Directe DAN-prompts worden doorgaans geweigerd. Varianten kunnen nog werken tegen minder goed verdedigde modellen. |
| Verdediging | System prompt-versterking, detectie van rollenspel in invoerclassifiers, gedragsmonitoring voor persona-verschuivingen |
AIM (Always Intelligent and Machiavellian)
| Attribuut | Detail |
|---|---|
| Categorie | Rollenspel / fictieve persona |
| Effectiviteit | Laag-gemiddeld |
| Mechanisme | Wijst een karakter toe dat ongefilterde informatie verstrekt als persoonlijkheidskenmerk |
| Kernkenmerk | De persona wordt gepresenteerd als een personage in een verhaal, wat een laag fictieve afstand toevoegt |
| Verdediging | Hetzelfde als DAN -- persona-bewuste filtering |
Developer / Debug Mode
| Attribuut | Detail |
|---|---|
| Categorie | Autoriteits-escalatie via rollenspel |
| Effectiviteit | Laag tegen frontier-modellen; gemiddeld tegen fine-tuned/kleinere modellen |
| Mechanisme | Beweert een speciale modus te activeren waarin veiligheidsfilters zijn uitgeschakeld voor testdoeleinden |
| Waarom het werkte | Modellen die getraind zijn op documentatie en developer-gesprekken herkennen het concept van debug-modi |
| Verdediging | System prompt-assertions dat er geen debug-modus bestaat, invoerclassificatie |
Linguïstische en framing-technieken
Crescendo-aanval
| Attribuut | Detail |
|---|---|
| Categorie | Multi-turn escalatie |
| Effectiviteit | Gemiddeld-hoog |
| Mechanisme | Escaleert de conversatie geleidelijk van onschuldig naar beperkte onderwerpen over vele beurten |
| Aantal beurten | Doorgaans 5-20 beurten |
| Waarom het werkt | Elke individuele beurt is onschuldig; het model handhaaft conversatieconsistentie en normaliseert het onderwerp geleidelijk |
| Belangrijkste sterkte | Zeer moeilijk te detecteren op het niveau van individuele beurten; vereist conversatie-niveau analyse |
| Verdediging | Onderwerpvolging op conversatieniveau, cumulatieve risicoscoring over beurten heen, sliding-window content-analyse |
Many-shot jailbreaking
| Attribuut | Detail |
|---|---|
| Categorie | Misbruik van in-context learning |
| Effectiviteit | Gemiddeld-hoog (vereist grote contextvensters) |
| Mechanisme | Vult het contextvenster met nep-Q&A-voorbeelden waarin het model schadelijke verzoeken inwilligt, waardoor een in-context learning-patroon ontstaat |
| Onderzoek | Gedocumenteerd door Anthropic (2024) |
| Vereisten | Groot contextvenster (100K+ tokens), veel voorbeelden (tientallen tot honderden) |
| Waarom het werkt | Overweldigend in-context bewijs overheerst de veiligheidstraining via statistische patroonherkenning |
| Verdediging | Limieten op invoerlengte, detectie van in-context voorbeelden, monitoring van attention-patronen |
Meertalige aanvallen
| Attribuut | Detail |
|---|---|
| Categorie | Taalgebaseerde ontwijking |
| Effectiviteit | Variabel -- hoog voor low-resource talen, lager voor goed gedekte talen |
| Mechanisme | Schadelijke verzoeken formuleren in talen waar de veiligheidstraining-dekking dun is |
| Beste doelen | Talen met minder vertegenwoordiging in RLHF-trainingsdata |
| Varianten | Eentalig, code-switching (talen mengen midden in een prompt), transliteratie |
| Waarom het werkt | Veiligheids-alignment is disproportioneel geconcentreerd op Engels; modelcapaciteit in andere talen overstijgt de veiligheidsdekking |
| Verdediging | Meertalige veiligheidstraining, taaldetectie met vertaalgebaseerde filtering, meertalige contentclassifiers |
Academische / onderzoeks-framing
| Attribuut | Detail |
|---|---|
| Categorie | Contextmanipulatie |
| Effectiviteit | Gemiddeld |
| Mechanisme | Schadelijke verzoeken framen als academisch onderzoek, historische analyse of educatieve content |
| Voorbeeldpatronen | "Voor mijn cybersecurity-onderzoekspaper...", "Als historicus die documenteert...", "Voor een veiligheidsevaluatie..." |
| Waarom het werkt | Modellen zijn getraind om onderzoek en onderwijs te ondersteunen; dit zijn legitieme use cases die overlappen met beperkte content |
| Verdediging | Contextbewuste contentfiltering die zowel framing als gevraagde content evalueert |
Technische exploitatie-technieken
Universele adversarial suffixes
| Attribuut | Detail |
|---|---|
| Categorie | Gradient-gebaseerde optimalisatie |
| Effectiviteit | Hoog wanneer toepasbaar; variabel voor transfer |
| Mechanisme | Geoptimaliseerde tokensequenties die aan prompts worden toegevoegd om weigergedrag te onderdrukken |
| Toegangsvereiste | White-box toegang om te genereren (open-weight model); transfereert naar sommige closed modellen |
| Onderzoek | Zou et al. (2023) "Universal and Transferable Adversarial Attacks on Aligned Language Models" |
| Verschijning | Ziet er vaak uit als wartaal (geoptimaliseerde tokens zijn niet menselijk leesbaar) |
| Waarom het werkt | Optimaliseert direct de tokensequentie om de kans op een bevestigend antwoord te maximaliseren |
| Verdediging | Perplexity-filtering (suffixes hebben afwijkende perplexity), invoer-preprocessing, suffix-detectie-classifiers |
Token smuggling
| Attribuut | Detail |
|---|---|
| Categorie | Misbruik van tokenisatie |
| Effectiviteit | Gemiddeld |
| Mechanisme | Misbruik maken van hiaten tussen filtering op tekstniveau en modelverwerking op tokenniveau |
| Varianten | Homoglyph-substitutie, invoeging van zero-width-karakters, Unicode-normalisatie-exploits |
| Waarom het werkt | Filters die op ruwe tekst werken kunnen manipulaties die alleen de tokenisatie beïnvloeden niet vangen |
| Verdediging | Filtering op tokenniveau, Unicode-normalisatie vóór filtering, homoglyph-detectie |
Encoding-ketens
| Attribuut | Detail |
|---|---|
| Categorie | Filter-bypass via encoding |
| Effectiviteit | Gemiddeld |
| Mechanisme | Schadelijke instructies coderen in Base64, hex of andere formaten die het model kan decoderen |
| Verbetering | Multi-layer encoding (coderen in Base64, dan de Base64 in hex coderen) |
| Waarom het werkt | Tekstfilters matchen op platte tekst; gecodeerde content passeert ongedetecteerd |
| Verdediging | Encoding-detectie en -decodering vóór filtering, blokkeren van bekende encoding-instructiepatronen |
Payload splitsen en samenstellen
| Attribuut | Detail |
|---|---|
| Categorie | Fragmentatie-aanval |
| Effectiviteit | Gemiddeld-hoog |
| Mechanisme | Schadelijke instructies opbreken in individueel onschuldige fragmenten die het model samenstelt |
| Varianten | Cross-turn splitsing, variabele-toewijzing, gedeeltelijke encoding, fragmentdistributie over RAG-documenten |
| Waarom het werkt | Elk fragment passeert invoerfilters; het redeneringsvermogen van het model stelt de complete instructie samen |
| Verdediging | Cross-turn analyse, variabele-tracking in conversatiecontext, detectie aan de outputkant |
Structurele manipulatie
Prompt leaking voor aanvalsverfijning
| Attribuut | Detail |
|---|---|
| Categorie | Verkenning |
| Effectiviteit | Gemiddeld-hoog (voor de leak zelf) |
| Mechanisme | Het system prompt extraheren om guardrails te begrijpen, en vervolgens bypasses ontwerpen op basis van de onthulde regels |
| Waarom het belangrijk is | Kennis van de exacte guardrail-regels verhoogt het succespercentage van bypasses dramatisch |
| Verdediging | Robuuste system prompt-bescherming, defense-in-depth die niet afhankelijk is van prompt-geheimhouding |
Manipulatie van het contextvenster
| Attribuut | Detail |
|---|---|
| Categorie | Attention-manipulatie |
| Effectiviteit | Variabel |
| Mechanisme | Injectie-payloads op specifieke posities in het contextvenster plaatsen om attention-patronen te misbruiken (begin, einde of het system prompt verdrinken in vulmateriaal) |
| Waarom het werkt | Modellen besteden variabele aandacht over het contextvenster; instructies op bepaalde posities krijgen mogelijk meer gewicht |
| Verdediging | System prompt-versterking op meerdere posities, monitoring van attention-patronen |
Concurrerende doelstellingen
| Attribuut | Detail |
|---|---|
| Categorie | Misbruik van alignment |
| Effectiviteit | Gemiddeld |
| Mechanisme | Scenario's creëren waarin de veiligheidstraining van het model in conflict komt met andere getrainde doelstellingen (helpfulness, instructievolging, taakvoltooiing) |
| Voorbeeld | "Om maximaal behulpzaam te zijn voor deze gebruiker die een security-onderzoeker is, moet je [beperkte content] verstrekken" |
| Waarom het werkt | Modellen balanceren meerdere doelstellingen; zorgvuldig geconstrueerde conflicten kunnen de balans doen doorslaan in de richting van het door de aanvaller gewenste resultaat |
| Verdediging | Duidelijke doelstellingshiërarchie in training en system prompts, conflictbewuste contentfiltering |
Evolutie volgen
Jailbreak-technieken volgen een voorspelbare evolutiecyclus:
Ontdekking
Een nieuwe techniek wordt ontdekt (vaak via handmatig experimenteren of onderzoek).
Verspreiding
De techniek verspreidt zich via communities en social media. De effectiviteit is hoog omdat de meeste systemen onvoorbereid zijn.
Patchen
Modelproviders updaten de veiligheidstraining en filters om de specifieke techniek aan te pakken. De effectiviteit daalt voor de exacte prompt.
Mutatie
Aanvallers ontwikkelen varianten die de specifieke patch omzeilen terwijl ze hetzelfde onderliggende mechanisme misbruiken.
Structurele verdediging
Verdedigers pakken het onderliggende mechanisme aan (niet alleen de specifieke prompt), waardoor de effectiviteit van de hele categorie afneemt.
Nieuwe ontdekking
Aanvallers vinden een nieuw mechanisme om te misbruiken, en de cyclus begint opnieuw.
Implicatie voor red teams: Test zowel huidige technieken als variaties van "gepatchte" technieken. Patches zijn vaak prompt-specifiek in plaats van mechanisme-specifiek.