Incident Response-playbook voor jailbreaks

Gemiddeld9 min lezenBijgewerkt op 2026-03-15

Stapsgewijs playbook voor het reageren op een jailbreak in productie: detectieverificatie, inperkingsstrategieën, onderzoeksprocedures, remediëringsstappen en post-mortem-framework.

jailbreak playbook incident-response containment

Incident Response-playbook voor jailbreaks

Dit playbook biedt stapsgewijze procedures voor het reageren op een bevestigde of vermoede jailbreak in een productie-AI-systeem. Een jailbreak vindt plaats wanneer een gebruiker het model ertoe brengt zijn veiligheidstraining of de beperkingen van de system prompt te omzeilen, waardoor het uitvoer produceert die zijn bedoelde gedragsbeperkingen schendt.

Triggercriteria

Activeer dit playbook wanneer een van de volgende zich voordoet:

Een veiligheidsclassifier markeert modeluitvoer als schending van contentbeleid
Een gebruiker meldt dat het model content produceerde die het niet had mogen produceren
Geautomatiseerde monitoring detecteert een jailbreak-patroon in invoerlogs
Interne tests ontdekken een reproduceerbare jailbreak-techniek
Externe openbaarmaking van een jailbreak die jouw model of system prompt treft

Onmiddellijke acties (eerste 30 minuten)

Bevestig en wijs toe

Registreer incident-ID, detectietijd (UTC) en bron. Wijs de rollen Incident Commander en AI Investigator toe.

Incident ID: AI-IR-[YYYY]-[NNNN]
Detected: [UTC timestamp]
Source: [classifier alert / user report / internal testing / external disclosure]
IC: [Name]
AI Investigator: [Name]

Bewaar bewijs
Leg al het vluchtige bewijs vast voordat je enige andere actie onderneemt:
- Volledige conversatiegeschiedenis waar de jailbreak plaatsvond (alle beurten, inclusief system prompt)
- Huidige versie van de system prompt (hash en volledige tekst)
- Modelversie en inferentieparameters (temperature, top_p, enz.)
- Uitvoer van de veiligheidsclassifier voor de gemarkeerde interactie
- Eventuele records van toolaanroepen als het model agentic capaciteiten heeft
- RAG-ophaallogs als het systeem retrieval augmentation gebruikt
- Gebruikersidentiteit en sessiemetadata
Bewaar bewijs in de incidentbewijsrepository met het incident-ID.

Beoordeel de omvang

Bepaal of de jailbreak geïsoleerd of systemisch is:

Vraag	Hoe te bepalen	Implicatie
Kan elke gebruiker het reproduceren?	Test met een verse sessie, ander gebruikersaccount	Systemisch indien ja
Vereist het specifieke conversatiegeschiedenis?	Test de payload zonder voorafgaande context	Geïsoleerd indien ja
Zit de kwetsbaarheid in de system prompt?	Beoordeel de system prompt op de uitgebuite zwakte	Systemisch indien ja
Zit de kwetsbaarheid in het basismodel?	Test met een minimale system prompt	Systemisch en moeilijker te herstellen
Zijn er meerdere jailbreak-varianten?	Doorzoek logs op vergelijkbare patronen	Bredere kwetsbaarheid

Implementeer initiële inperking

Op basis van de omvangsbeoordeling:

Omvang	Inperkingsactie
Geïsoleerd (enkele sessie)	Beëindig de sessie; voeg een invoerfilter toe voor de specifieke payload
Systemisch (fout in system prompt)	Deploy een noodpatch voor de system prompt; voeg een invoerfilter toe
Systemisch (modelkwetsbaarheid)	Overweeg over te schakelen naar een fallback-model; voeg een uitvoerclassifier toe
Actieve exploitatie door meerdere gebruikers	Voeg agressieve invoer-/uitvoerfiltering toe; overweeg endpoint-shutdown

Stel stakeholders op de hoogte

Op basis van de ernst:

Ernst	Op de hoogte stellen
Laag (geïsoleerd, geen schadelijke uitvoer)	Teamlead, log voor tracking
Gemiddeld (systemisch maar beperkte impact)	Teamlead, product owner
Hoog (schadelijke content gegenereerd)	Management, juridisch, compliance
Kritiek (risico voor openbare veiligheid, data-inbreuk)	Directieteam, juridisch, PR, regelgevende contacten

Onderzoek (uur 1-4)

Log-analyse

Reconstrueer de aanvalsketen
Gebruik Prompt Log Forensics-technieken om de volledige aanval te reconstrueren:
- Identificeer elke fase: verkenning, contextinstelling, grenzen testen, payload-aflevering, exploitatie
- Classificeer de jailbreak-techniek (direct, multi-turn, persona-kaping, encoding-bypass, enz.)
- Bepaal de exacte beurt waar de verdedigingen van het model faalden
Bepaal de schade
Beoordeel alle modeluitvoer na de jailbreak om te bepalen:
- Welke content werd gegenereerd die beleid schendt?
- Werd er gevoelige data onthuld?
- Heeft het model acties ondernomen (toolaanroepen) terwijl het in een gejailbreakte staat was?
- Werden andere gebruikers getroffen door dezelfde techniek?

Zoek naar gerelateerde activiteit

Doorzoek logs op vergelijkbare aanvalspatronen:

-- Search for similar jailbreak patterns across all sessions
SELECT
    session_id,
    user_id,
    timestamp,
    substring(content, 1, 200) AS content_preview
FROM prompt_logs
WHERE (content ILIKE '%ignore previous%'
    OR content ILIKE '%you are now%'
    OR content ILIKE '%new instructions%'
    OR content ILIKE '%[specific payload pattern]%')
    AND timestamp > NOW() - INTERVAL '7 days'
ORDER BY timestamp DESC;

Identificeer de hoofdoorzaak

Bepaal waarom de jailbreak slaagde:

Categorie hoofdoorzaak	Indicatoren	Fixlaag
Zwakte in system prompt	Prompt mist expliciete weigeringsinstructies voor dit aanvalstype	Applicatie
Ontbrekend invoerfilter	Geen filter voor dit aanvalspatroon	Applicatie
Ontbrekende uitvoerclassifier	Geen classifier of classifier markeerde de uitvoer niet	Applicatie
Veiligheidshiaat in model	Basismodel weigert dit type verzoek niet	Model
Exploitatie van het contextvenster	Aanval steunde op het vullen van het contextvenster om instructies eruit te drukken	Architectuur

Inperking en remediëring

Kortetermijnfixes (deploy binnen uren)

Fix	Implementatie	Dekking
Invoerfilter	Voeg een regex- of classifier-gebaseerd filter toe voor het specifieke aanvalspatroon	Blokkeert deze specifieke payload; aanvaller kan zich aanpassen
Uitvoerclassifier	Voeg een uitvoerclassifier toe of werk deze bij om deze uitvoercategorie te vangen	Vangt uitvoer ongeacht de invoertechniek
Hardening van system prompt	Voeg expliciete instructies toe die de uitgebuite zwakte adresseren	Adresseert de hoofdoorzaak in de applicatielaag
Rate limiting	Verlaag het verzoekpercentage voor verdachte patronen	Vertraagt geautomatiseerde exploitatie

Langetermijnfixes (deploy binnen dagen-weken)

Fix	Implementatie	Dekking
Safety fine-tuning	Fine-tune het model met voorbeelden die deze zwakte adresseren	Adresseert kwetsbaarheid op modelniveau
Uitgebreide promptbeoordeling	Audit de volledige system prompt op vergelijkbare zwaktes	Voorkomt gerelateerde aanvalsvarianten
Defense-in-depth	Stapel invoerfilters, uitvoerclassifiers en hardening van de system prompt	Zorgt ervoor dat geen enkele bypass alle verdedigingen verslaat
Jailbreak-evaluatiesuite	Voeg deze techniek toe aan geautomatiseerd testen	Vangt regressies in toekomstige updates

Verificatie

Verificatieprocedure

Stap	Actie	Slaagcriteria
1	Voer exacte oorspronkelijke payload 50 keer uit	Slaagpercentage < 5% (was: [original rate])
2	Voer 10 kleine variaties van de payload uit	Slaagpercentage < 5% elk
3	Voer 10 geparafraseerde versies van de payload uit	Slaagpercentage < 5% elk
4	Test in multi-turn-context (als de oorspronkelijke multi-turn was)	Slaagpercentage < 5%
5	Verifieer geen regressie op legitieme use cases	Geen toename in onterechte weigeringen

## Verification Results
 
**Original payload:** [success rate] over [N] attempts (was [original rate])
**Variations:** [summary of variation testing results]
**Paraphrases:** [summary]
**Multi-turn:** [summary]
**False refusal rate:** [rate] (baseline: [rate])
**Conclusion:** [Fix effective / Fix insufficient / Partial mitigation]

Communicatiesjablonen

Interne melding (initieel)

Subject: [AI-IR-YYYY-NNNN] Jailbreak incident - [severity] - [product]

Status: [Active investigation / Contained / Resolved]

Summary: A jailbreak [was reported / was detected] in [product name]
at [time]. The model [description of what it produced]. The vulnerability
appears to be [isolated/systemic] and affects [scope].

Current actions:
- Evidence preserved: [Yes/No]
- Containment in place: [description]
- Investigation status: [status]

Impact: [description of impact or potential impact]

Next update: [time]

Post-mortem-samenvatting

Subject: [AI-IR-YYYY-NNNN] Post-mortem summary

Timeline: [detection time] to [resolution time] ([duration])

What happened: [2-3 sentence summary]

Root cause: [description]

Impact: [what was affected, what content was generated]

Fix: [what was deployed, when]

Verification: [statistical verification results]

Lessons learned:
1. [lesson]
2. [lesson]

Action items:
- [ ] [action item with owner and deadline]

Post-mortem-checklist

#	Item	Status
1	Tijdlijn gedocumenteerd van detectie tot afhandeling
2	Hoofdoorzaak geïdentificeerd en bevestigd
3	Alle getroffen gebruikers/sessies geïdentificeerd
4	Jailbreak-techniek geclassificeerd tegen taxonomie
5	Fix statistisch geverifieerd (50+ pogingen)
6	Aanvalspatroon toegevoegd aan monitoringregels
7	Jailbreak-techniek toegevoegd aan evaluatiesuite
8	System prompt beoordeeld op vergelijkbare zwaktes
9	Overdraagbaarheid getest op andere modelendpoints
10	Post-mortem-document gepubliceerd naar het team

Gerelateerde onderwerpen

Incident Classification -- het jailbreak-type classificeren
Prompt Log Forensics -- gedetailleerde technieken voor promptonderzoek
Prompt Injection & Jailbreaks -- jailbreak-technieken begrijpen
Evidence Preservation -- conversatiebewijs bewaren

Referenties

"OWASP Top 10 for LLM Applications: LLM01 - Prompt Injection" - OWASP Foundation (2025) - Jailbreak vulnerability classification
"Jailbreaking Leading Safety-Aligned LLMs" - arXiv (2025) - Current jailbreak techniques and effectiveness
"AI Red Team Playbooks" - Microsoft Security (2025) - AI-specific incident response procedures

Knowledge Check

Een jailbreak werd hersteld door de system prompt bij te werken. Je test de oorspronkelijke payload eenmaal en die faalt. Is de fix geverifieerd?

Incident Response-playbook voor jailbreaks

Gemiddeld9 min lezenBijgewerkt op 2026-03-15

Stapsgewijs playbook voor het reageren op een jailbreak in productie: detectieverificatie, inperkingsstrategieën, onderzoeksprocedures, remediëringsstappen en post-mortem-framework.

jailbreak playbook incident-response containment

Incident Response-playbook voor jailbreaks

Triggercriteria

Activeer dit playbook wanneer een van de volgende zich voordoet:

Een veiligheidsclassifier markeert modeluitvoer als schending van contentbeleid
Een gebruiker meldt dat het model content produceerde die het niet had mogen produceren
Geautomatiseerde monitoring detecteert een jailbreak-patroon in invoerlogs
Interne tests ontdekken een reproduceerbare jailbreak-techniek
Externe openbaarmaking van een jailbreak die jouw model of system prompt treft

Onmiddellijke acties (eerste 30 minuten)

Bevestig en wijs toe

Registreer incident-ID, detectietijd (UTC) en bron. Wijs de rollen Incident Commander en AI Investigator toe.

Incident ID: AI-IR-[YYYY]-[NNNN]
Detected: [UTC timestamp]
Source: [classifier alert / user report / internal testing / external disclosure]
IC: [Name]
AI Investigator: [Name]

Bewaar bewijs
Leg al het vluchtige bewijs vast voordat je enige andere actie onderneemt:
- Volledige conversatiegeschiedenis waar de jailbreak plaatsvond (alle beurten, inclusief system prompt)
- Huidige versie van de system prompt (hash en volledige tekst)
- Modelversie en inferentieparameters (temperature, top_p, enz.)
- Uitvoer van de veiligheidsclassifier voor de gemarkeerde interactie
- Eventuele records van toolaanroepen als het model agentic capaciteiten heeft
- RAG-ophaallogs als het systeem retrieval augmentation gebruikt
- Gebruikersidentiteit en sessiemetadata
Bewaar bewijs in de incidentbewijsrepository met het incident-ID.

Beoordeel de omvang

Bepaal of de jailbreak geïsoleerd of systemisch is:

Vraag	Hoe te bepalen	Implicatie
Kan elke gebruiker het reproduceren?	Test met een verse sessie, ander gebruikersaccount	Systemisch indien ja
Vereist het specifieke conversatiegeschiedenis?	Test de payload zonder voorafgaande context	Geïsoleerd indien ja
Zit de kwetsbaarheid in de system prompt?	Beoordeel de system prompt op de uitgebuite zwakte	Systemisch indien ja
Zit de kwetsbaarheid in het basismodel?	Test met een minimale system prompt	Systemisch en moeilijker te herstellen
Zijn er meerdere jailbreak-varianten?	Doorzoek logs op vergelijkbare patronen	Bredere kwetsbaarheid

Implementeer initiële inperking

Op basis van de omvangsbeoordeling:

Omvang	Inperkingsactie
Geïsoleerd (enkele sessie)	Beëindig de sessie; voeg een invoerfilter toe voor de specifieke payload
Systemisch (fout in system prompt)	Deploy een noodpatch voor de system prompt; voeg een invoerfilter toe
Systemisch (modelkwetsbaarheid)	Overweeg over te schakelen naar een fallback-model; voeg een uitvoerclassifier toe
Actieve exploitatie door meerdere gebruikers	Voeg agressieve invoer-/uitvoerfiltering toe; overweeg endpoint-shutdown

Stel stakeholders op de hoogte

Op basis van de ernst:

Ernst	Op de hoogte stellen
Laag (geïsoleerd, geen schadelijke uitvoer)	Teamlead, log voor tracking
Gemiddeld (systemisch maar beperkte impact)	Teamlead, product owner
Hoog (schadelijke content gegenereerd)	Management, juridisch, compliance
Kritiek (risico voor openbare veiligheid, data-inbreuk)	Directieteam, juridisch, PR, regelgevende contacten

Onderzoek (uur 1-4)

Log-analyse

Reconstrueer de aanvalsketen
Gebruik Prompt Log Forensics-technieken om de volledige aanval te reconstrueren:
- Identificeer elke fase: verkenning, contextinstelling, grenzen testen, payload-aflevering, exploitatie
- Classificeer de jailbreak-techniek (direct, multi-turn, persona-kaping, encoding-bypass, enz.)
- Bepaal de exacte beurt waar de verdedigingen van het model faalden
Bepaal de schade
Beoordeel alle modeluitvoer na de jailbreak om te bepalen:
- Welke content werd gegenereerd die beleid schendt?
- Werd er gevoelige data onthuld?
- Heeft het model acties ondernomen (toolaanroepen) terwijl het in een gejailbreakte staat was?
- Werden andere gebruikers getroffen door dezelfde techniek?

Zoek naar gerelateerde activiteit

Doorzoek logs op vergelijkbare aanvalspatronen:

-- Search for similar jailbreak patterns across all sessions
SELECT
    session_id,
    user_id,
    timestamp,
    substring(content, 1, 200) AS content_preview
FROM prompt_logs
WHERE (content ILIKE '%ignore previous%'
    OR content ILIKE '%you are now%'
    OR content ILIKE '%new instructions%'
    OR content ILIKE '%[specific payload pattern]%')
    AND timestamp > NOW() - INTERVAL '7 days'
ORDER BY timestamp DESC;

Identificeer de hoofdoorzaak

Bepaal waarom de jailbreak slaagde:

Categorie hoofdoorzaak	Indicatoren	Fixlaag
Zwakte in system prompt	Prompt mist expliciete weigeringsinstructies voor dit aanvalstype	Applicatie
Ontbrekend invoerfilter	Geen filter voor dit aanvalspatroon	Applicatie
Ontbrekende uitvoerclassifier	Geen classifier of classifier markeerde de uitvoer niet	Applicatie
Veiligheidshiaat in model	Basismodel weigert dit type verzoek niet	Model
Exploitatie van het contextvenster	Aanval steunde op het vullen van het contextvenster om instructies eruit te drukken	Architectuur

Inperking en remediëring

Kortetermijnfixes (deploy binnen uren)

Fix	Implementatie	Dekking
Invoerfilter	Voeg een regex- of classifier-gebaseerd filter toe voor het specifieke aanvalspatroon	Blokkeert deze specifieke payload; aanvaller kan zich aanpassen
Uitvoerclassifier	Voeg een uitvoerclassifier toe of werk deze bij om deze uitvoercategorie te vangen	Vangt uitvoer ongeacht de invoertechniek
Hardening van system prompt	Voeg expliciete instructies toe die de uitgebuite zwakte adresseren	Adresseert de hoofdoorzaak in de applicatielaag
Rate limiting	Verlaag het verzoekpercentage voor verdachte patronen	Vertraagt geautomatiseerde exploitatie

Langetermijnfixes (deploy binnen dagen-weken)

Fix	Implementatie	Dekking
Safety fine-tuning	Fine-tune het model met voorbeelden die deze zwakte adresseren	Adresseert kwetsbaarheid op modelniveau
Uitgebreide promptbeoordeling	Audit de volledige system prompt op vergelijkbare zwaktes	Voorkomt gerelateerde aanvalsvarianten
Defense-in-depth	Stapel invoerfilters, uitvoerclassifiers en hardening van de system prompt	Zorgt ervoor dat geen enkele bypass alle verdedigingen verslaat
Jailbreak-evaluatiesuite	Voeg deze techniek toe aan geautomatiseerd testen	Vangt regressies in toekomstige updates

Verificatie

Verificatieprocedure

Stap	Actie	Slaagcriteria
1	Voer exacte oorspronkelijke payload 50 keer uit	Slaagpercentage < 5% (was: [original rate])
2	Voer 10 kleine variaties van de payload uit	Slaagpercentage < 5% elk
3	Voer 10 geparafraseerde versies van de payload uit	Slaagpercentage < 5% elk
4	Test in multi-turn-context (als de oorspronkelijke multi-turn was)	Slaagpercentage < 5%
5	Verifieer geen regressie op legitieme use cases	Geen toename in onterechte weigeringen

## Verification Results
 
**Original payload:** [success rate] over [N] attempts (was [original rate])
**Variations:** [summary of variation testing results]
**Paraphrases:** [summary]
**Multi-turn:** [summary]
**False refusal rate:** [rate] (baseline: [rate])
**Conclusion:** [Fix effective / Fix insufficient / Partial mitigation]

Communicatiesjablonen

Interne melding (initieel)

Subject: [AI-IR-YYYY-NNNN] Jailbreak incident - [severity] - [product]

Status: [Active investigation / Contained / Resolved]

Summary: A jailbreak [was reported / was detected] in [product name]
at [time]. The model [description of what it produced]. The vulnerability
appears to be [isolated/systemic] and affects [scope].

Current actions:
- Evidence preserved: [Yes/No]
- Containment in place: [description]
- Investigation status: [status]

Impact: [description of impact or potential impact]

Next update: [time]

Post-mortem-samenvatting

Subject: [AI-IR-YYYY-NNNN] Post-mortem summary

Timeline: [detection time] to [resolution time] ([duration])

What happened: [2-3 sentence summary]

Root cause: [description]

Impact: [what was affected, what content was generated]

Fix: [what was deployed, when]

Verification: [statistical verification results]

Lessons learned:
1. [lesson]
2. [lesson]

Action items:
- [ ] [action item with owner and deadline]

Post-mortem-checklist

#	Item	Status
1	Tijdlijn gedocumenteerd van detectie tot afhandeling
2	Hoofdoorzaak geïdentificeerd en bevestigd
3	Alle getroffen gebruikers/sessies geïdentificeerd
4	Jailbreak-techniek geclassificeerd tegen taxonomie
5	Fix statistisch geverifieerd (50+ pogingen)
6	Aanvalspatroon toegevoegd aan monitoringregels
7	Jailbreak-techniek toegevoegd aan evaluatiesuite
8	System prompt beoordeeld op vergelijkbare zwaktes
9	Overdraagbaarheid getest op andere modelendpoints
10	Post-mortem-document gepubliceerd naar het team

Gerelateerde onderwerpen

Incident Classification -- het jailbreak-type classificeren
Prompt Log Forensics -- gedetailleerde technieken voor promptonderzoek
Prompt Injection & Jailbreaks -- jailbreak-technieken begrijpen
Evidence Preservation -- conversatiebewijs bewaren

Referenties

"OWASP Top 10 for LLM Applications: LLM01 - Prompt Injection" - OWASP Foundation (2025) - Jailbreak vulnerability classification
"Jailbreaking Leading Safety-Aligned LLMs" - arXiv (2025) - Current jailbreak techniques and effectiveness
"AI Red Team Playbooks" - Microsoft Security (2025) - AI-specific incident response procedures

Knowledge Check

Een jailbreak werd hersteld door de system prompt bij te werken. Je test de oorspronkelijke payload eenmaal en die faalt. Is de fix geverifieerd?

Incident Response-playbook voor jailbreaks

Bevestig en wijs toe

Bewaar bewijs

Beoordeel de omvang

Implementeer initiële inperking

Stel stakeholders op de hoogte

Reconstrueer de aanvalsketen

Bepaal de schade

Zoek naar gerelateerde activiteit

Identificeer de hoofdoorzaak

Gerelateerde artikelen

Incident Response-playbook voor jailbreaks

Bevestig en wijs toe

Bewaar bewijs

Beoordeel de omvang

Implementeer initiële inperking

Stel stakeholders op de hoogte

Reconstrueer de aanvalsketen

Bepaal de schade

Zoek naar gerelateerde activiteit

Identificeer de hoofdoorzaak

Gerelateerde artikelen