Incident Response-playbook voor jailbreaks
Stapsgewijs playbook voor het reageren op een jailbreak in productie: detectieverificatie, inperkingsstrategieën, onderzoeksprocedures, remediëringsstappen en post-mortem-framework.
Incident Response-playbook voor jailbreaks
Dit playbook biedt stapsgewijze procedures voor het reageren op een bevestigde of vermoede jailbreak in een productie-AI-systeem. Een jailbreak vindt plaats wanneer een gebruiker het model ertoe brengt zijn veiligheidstraining of de beperkingen van de system prompt te omzeilen, waardoor het uitvoer produceert die zijn bedoelde gedragsbeperkingen schendt.
Triggercriteria
Activeer dit playbook wanneer een van de volgende zich voordoet:
- Een veiligheidsclassifier markeert modeluitvoer als schending van contentbeleid
- Een gebruiker meldt dat het model content produceerde die het niet had mogen produceren
- Geautomatiseerde monitoring detecteert een jailbreak-patroon in invoerlogs
- Interne tests ontdekken een reproduceerbare jailbreak-techniek
- Externe openbaarmaking van een jailbreak die jouw model of system prompt treft
Onmiddellijke acties (eerste 30 minuten)
Bevestig en wijs toe
Registreer incident-ID, detectietijd (UTC) en bron. Wijs de rollen Incident Commander en AI Investigator toe.
Incident ID: AI-IR-[YYYY]-[NNNN] Detected: [UTC timestamp] Source: [classifier alert / user report / internal testing / external disclosure] IC: [Name] AI Investigator: [Name]Bewaar bewijs
Leg al het vluchtige bewijs vast voordat je enige andere actie onderneemt:
- Volledige conversatiegeschiedenis waar de jailbreak plaatsvond (alle beurten, inclusief system prompt)
- Huidige versie van de system prompt (hash en volledige tekst)
- Modelversie en inferentieparameters (temperature, top_p, enz.)
- Uitvoer van de veiligheidsclassifier voor de gemarkeerde interactie
- Eventuele records van toolaanroepen als het model agentic capaciteiten heeft
- RAG-ophaallogs als het systeem retrieval augmentation gebruikt
- Gebruikersidentiteit en sessiemetadata
Bewaar bewijs in de incidentbewijsrepository met het incident-ID.
Beoordeel de omvang
Bepaal of de jailbreak geïsoleerd of systemisch is:
Vraag Hoe te bepalen Implicatie Kan elke gebruiker het reproduceren? Test met een verse sessie, ander gebruikersaccount Systemisch indien ja Vereist het specifieke conversatiegeschiedenis? Test de payload zonder voorafgaande context Geïsoleerd indien ja Zit de kwetsbaarheid in de system prompt? Beoordeel de system prompt op de uitgebuite zwakte Systemisch indien ja Zit de kwetsbaarheid in het basismodel? Test met een minimale system prompt Systemisch en moeilijker te herstellen Zijn er meerdere jailbreak-varianten? Doorzoek logs op vergelijkbare patronen Bredere kwetsbaarheid Implementeer initiële inperking
Op basis van de omvangsbeoordeling:
Omvang Inperkingsactie Geïsoleerd (enkele sessie) Beëindig de sessie; voeg een invoerfilter toe voor de specifieke payload Systemisch (fout in system prompt) Deploy een noodpatch voor de system prompt; voeg een invoerfilter toe Systemisch (modelkwetsbaarheid) Overweeg over te schakelen naar een fallback-model; voeg een uitvoerclassifier toe Actieve exploitatie door meerdere gebruikers Voeg agressieve invoer-/uitvoerfiltering toe; overweeg endpoint-shutdown Stel stakeholders op de hoogte
Op basis van de ernst:
Ernst Op de hoogte stellen Laag (geïsoleerd, geen schadelijke uitvoer) Teamlead, log voor tracking Gemiddeld (systemisch maar beperkte impact) Teamlead, product owner Hoog (schadelijke content gegenereerd) Management, juridisch, compliance Kritiek (risico voor openbare veiligheid, data-inbreuk) Directieteam, juridisch, PR, regelgevende contacten
Onderzoek (uur 1-4)
Log-analyse
Reconstrueer de aanvalsketen
Gebruik Prompt Log Forensics-technieken om de volledige aanval te reconstrueren:
- Identificeer elke fase: verkenning, contextinstelling, grenzen testen, payload-aflevering, exploitatie
- Classificeer de jailbreak-techniek (direct, multi-turn, persona-kaping, encoding-bypass, enz.)
- Bepaal de exacte beurt waar de verdedigingen van het model faalden
Bepaal de schade
Beoordeel alle modeluitvoer na de jailbreak om te bepalen:
- Welke content werd gegenereerd die beleid schendt?
- Werd er gevoelige data onthuld?
- Heeft het model acties ondernomen (toolaanroepen) terwijl het in een gejailbreakte staat was?
- Werden andere gebruikers getroffen door dezelfde techniek?
Zoek naar gerelateerde activiteit
Doorzoek logs op vergelijkbare aanvalspatronen:
-- Search for similar jailbreak patterns across all sessions SELECT session_id, user_id, timestamp, substring(content, 1, 200) AS content_preview FROM prompt_logs WHERE (content ILIKE '%ignore previous%' OR content ILIKE '%you are now%' OR content ILIKE '%new instructions%' OR content ILIKE '%[specific payload pattern]%') AND timestamp > NOW() - INTERVAL '7 days' ORDER BY timestamp DESC;Identificeer de hoofdoorzaak
Bepaal waarom de jailbreak slaagde:
Categorie hoofdoorzaak Indicatoren Fixlaag Zwakte in system prompt Prompt mist expliciete weigeringsinstructies voor dit aanvalstype Applicatie Ontbrekend invoerfilter Geen filter voor dit aanvalspatroon Applicatie Ontbrekende uitvoerclassifier Geen classifier of classifier markeerde de uitvoer niet Applicatie Veiligheidshiaat in model Basismodel weigert dit type verzoek niet Model Exploitatie van het contextvenster Aanval steunde op het vullen van het contextvenster om instructies eruit te drukken Architectuur
Inperking en remediëring
Kortetermijnfixes (deploy binnen uren)
| Fix | Implementatie | Dekking |
|---|---|---|
| Invoerfilter | Voeg een regex- of classifier-gebaseerd filter toe voor het specifieke aanvalspatroon | Blokkeert deze specifieke payload; aanvaller kan zich aanpassen |
| Uitvoerclassifier | Voeg een uitvoerclassifier toe of werk deze bij om deze uitvoercategorie te vangen | Vangt uitvoer ongeacht de invoertechniek |
| Hardening van system prompt | Voeg expliciete instructies toe die de uitgebuite zwakte adresseren | Adresseert de hoofdoorzaak in de applicatielaag |
| Rate limiting | Verlaag het verzoekpercentage voor verdachte patronen | Vertraagt geautomatiseerde exploitatie |
Langetermijnfixes (deploy binnen dagen-weken)
| Fix | Implementatie | Dekking |
|---|---|---|
| Safety fine-tuning | Fine-tune het model met voorbeelden die deze zwakte adresseren | Adresseert kwetsbaarheid op modelniveau |
| Uitgebreide promptbeoordeling | Audit de volledige system prompt op vergelijkbare zwaktes | Voorkomt gerelateerde aanvalsvarianten |
| Defense-in-depth | Stapel invoerfilters, uitvoerclassifiers en hardening van de system prompt | Zorgt ervoor dat geen enkele bypass alle verdedigingen verslaat |
| Jailbreak-evaluatiesuite | Voeg deze techniek toe aan geautomatiseerd testen | Vangt regressies in toekomstige updates |
Verificatie
Verificatieprocedure
| Stap | Actie | Slaagcriteria |
|---|---|---|
| 1 | Voer exacte oorspronkelijke payload 50 keer uit | Slaagpercentage < 5% (was: [original rate]) |
| 2 | Voer 10 kleine variaties van de payload uit | Slaagpercentage < 5% elk |
| 3 | Voer 10 geparafraseerde versies van de payload uit | Slaagpercentage < 5% elk |
| 4 | Test in multi-turn-context (als de oorspronkelijke multi-turn was) | Slaagpercentage < 5% |
| 5 | Verifieer geen regressie op legitieme use cases | Geen toename in onterechte weigeringen |
## Verification Results
**Original payload:** [success rate] over [N] attempts (was [original rate])
**Variations:** [summary of variation testing results]
**Paraphrases:** [summary]
**Multi-turn:** [summary]
**False refusal rate:** [rate] (baseline: [rate])
**Conclusion:** [Fix effective / Fix insufficient / Partial mitigation]Communicatiesjablonen
Interne melding (initieel)
Subject: [AI-IR-YYYY-NNNN] Jailbreak incident - [severity] - [product]
Status: [Active investigation / Contained / Resolved]
Summary: A jailbreak [was reported / was detected] in [product name]
at [time]. The model [description of what it produced]. The vulnerability
appears to be [isolated/systemic] and affects [scope].
Current actions:
- Evidence preserved: [Yes/No]
- Containment in place: [description]
- Investigation status: [status]
Impact: [description of impact or potential impact]
Next update: [time]
Post-mortem-samenvatting
Subject: [AI-IR-YYYY-NNNN] Post-mortem summary
Timeline: [detection time] to [resolution time] ([duration])
What happened: [2-3 sentence summary]
Root cause: [description]
Impact: [what was affected, what content was generated]
Fix: [what was deployed, when]
Verification: [statistical verification results]
Lessons learned:
1. [lesson]
2. [lesson]
Action items:
- [ ] [action item with owner and deadline]
Post-mortem-checklist
| # | Item | Status |
|---|---|---|
| 1 | Tijdlijn gedocumenteerd van detectie tot afhandeling | |
| 2 | Hoofdoorzaak geïdentificeerd en bevestigd | |
| 3 | Alle getroffen gebruikers/sessies geïdentificeerd | |
| 4 | Jailbreak-techniek geclassificeerd tegen taxonomie | |
| 5 | Fix statistisch geverifieerd (50+ pogingen) | |
| 6 | Aanvalspatroon toegevoegd aan monitoringregels | |
| 7 | Jailbreak-techniek toegevoegd aan evaluatiesuite | |
| 8 | System prompt beoordeeld op vergelijkbare zwaktes | |
| 9 | Overdraagbaarheid getest op andere modelendpoints | |
| 10 | Post-mortem-document gepubliceerd naar het team |
Gerelateerde onderwerpen
- Incident Classification -- het jailbreak-type classificeren
- Prompt Log Forensics -- gedetailleerde technieken voor promptonderzoek
- Prompt Injection & Jailbreaks -- jailbreak-technieken begrijpen
- Evidence Preservation -- conversatiebewijs bewaren
Referenties
- "OWASP Top 10 for LLM Applications: LLM01 - Prompt Injection" - OWASP Foundation (2025) - Jailbreak vulnerability classification
- "Jailbreaking Leading Safety-Aligned LLMs" - arXiv (2025) - Current jailbreak techniques and effectiveness
- "AI Red Team Playbooks" - Microsoft Security (2025) - AI-specific incident response procedures
Een jailbreak werd hersteld door de system prompt bij te werken. Je test de oorspronkelijke payload eenmaal en die faalt. Is de fix geverifieerd?