Jailbreak 事件回應 Playbook
中級5 分鐘閱讀更新於 2026-03-15
回應生產 jailbreak 之逐步 playbook:偵測驗證、遏制策略、調查程序、補救步驟,以及事後檢討框架。
Jailbreak 事件回應 Playbook
本 playbook 為回應生產 AI 系統中已確認或疑似 jailbreak 提供逐步程序。Jailbreak 發生於使用者使模型繞過其安全訓練或系統提示限制——產出違反其預期行為約束之輸出時。
觸發條件
下列任一情況發生時啟動此 playbook:
- 安全分類器將模型輸出標記為違反內容政策
- 使用者回報模型產出不應產出之內容
- 自動化監控於輸入日誌偵測 jailbreak 模式
- 內部測試發掘可重現之 jailbreak 技術
- 影響你的模型或系統提示之 jailbreak 遭外部揭露
立即行動(首 30 分鐘)
確認並指派
記錄事件 ID、偵測時間(UTC)與來源。指派事件指揮官與 AI 調查者角色。
事件 ID:AI-IR-[YYYY]-[NNNN] 偵測時間:[UTC 時間戳] 來源:[分類器告警 / 使用者回報 / 內部測試 / 外部揭露] IC:[姓名] AI 調查者:[姓名]保存證據
於採取任何其他行動前擷取所有揮發性證據:
- 發生 jailbreak 之完整對話歷史(所有輪次,含系統提示)
- 當前系統提示版本(hash 與完整文字)
- 模型版本與推論參數(temperature、top_p 等)
- 被標記互動之安全分類器輸出
- 若模型具代理能力,任何工具呼叫紀錄
- 若系統使用檢索增強,RAG 檢索日誌
- 使用者身分與會話 metadata
將證據儲存於事件證據儲存庫,並附事件 ID。
評估範圍
判定 jailbreak 是孤立或系統性:
問題 如何判定 意涵 任何使用者是否能重現? 以新會話、不同使用者帳號測試 若是則為系統性 是否需要特定對話歷史? 於無先前脈絡下測試 payload 若是則為孤立 漏洞是否於系統提示中? 審查系統提示以尋找被利用之弱點 若是則為系統性 漏洞是否於基礎模型中? 以最小系統提示測試 系統性且更難修復 是否有多個 jailbreak 變體? 於日誌搜尋類似模式 更廣漏洞 實施初步遏制
依範圍評估:
範圍 遏制行動 孤立(單一會話) 終止會話;對該特定 payload 加輸入過濾 系統性(系統提示缺陷) 部署緊急系統提示修補;加輸入過濾 系統性(模型漏洞) 考慮切換至備援模型;加輸出分類器 多使用者主動利用 加積極輸入/輸出過濾;考慮端點關閉 通知利害關係人
依嚴重度:
嚴重度 通知 低(孤立、無有害輸出) 團隊主管、記錄以供追蹤 中(系統性但影響有限) 團隊主管、產品負責人 高(產出有害內容) 管理層、法務、合規 關鍵(公共安全風險、資料外洩) 執行團隊、法務、公關、監管聯絡人
調查(第 1–4 小時)
日誌分析
重建攻擊鏈
使用 提示日誌鑑識 技術,重建完整攻擊:
- 辨識每個階段:偵察、脈絡設定、邊界測試、payload 遞送、利用
- 分類 jailbreak 技術(直接、多輪、人格劫持、編碼繞過等)
- 判定模型防禦失效之確切輪次
界定損害範圍
檢視 jailbreak 後之所有模型輸出以判定:
- 產出何種違反政策之內容?
- 是否揭露任何敏感資料?
- 模型於被 jailbreak 狀態下是否採取任何行動(工具呼叫)?
- 其他使用者是否受相同技術影響?
搜尋相關活動
對類似攻擊模式查詢日誌:
-- 跨所有會話搜尋類似 jailbreak 模式 SELECT session_id, user_id, timestamp, substring(content, 1, 200) AS content_preview FROM prompt_logs WHERE (content ILIKE '%ignore previous%' OR content ILIKE '%you are now%' OR content ILIKE '%new instructions%' OR content ILIKE '%[specific payload pattern]%') AND timestamp > NOW() - INTERVAL '7 days' ORDER BY timestamp DESC;辨識根本原因
判定 jailbreak 為何成功:
根本原因類別 指標 修復層 系統提示弱點 提示缺乏對此攻擊類型之明確拒絕指令 應用 缺失之輸入過濾 對此攻擊模式無過濾器 應用 缺失之輸出分類器 無分類器或分類器未標記輸出 應用 模型安全缺口 基礎模型不拒絕此類請求 模型 上下文視窗利用 攻擊仰賴填滿上下文視窗以擠出指令 架構
遏制與補救
短期修復(於數小時內部署)
| 修復 | 實作 | 覆蓋 |
|---|---|---|
| 輸入過濾器 | 對特定攻擊模式加 regex 或以分類器為本之過濾器 | 封鎖此特定 payload;攻擊者可調整 |
| 輸出分類器 | 加入或更新輸出分類器以捕捉此輸出類別 | 不論輸入技術為何皆可捕捉輸出 |
| 系統提示加固 | 加入處理被利用弱點之明確指令 | 於應用層處理根本原因 |
| 速率限制 | 對可疑模式降低請求速率 | 延緩自動化利用 |
長期修復(於數日—數週內部署)
| 修復 | 實作 | 覆蓋 |
|---|---|---|
| 安全微調 | 以處理此弱點之範例微調模型 | 處理模型層漏洞 |
| 全面提示審查 | 稽核整個系統提示以尋找類似弱點 | 防止相關攻擊變體 |
| 縱深防禦 | 疊合輸入過濾器、輸出分類器與系統提示加固 | 確保無單一繞過擊敗所有防禦 |
| Jailbreak 評估套件 | 將此技術加入自動化測試 | 於未來更新中捕捉退化 |
驗證
驗證程序
| 步驟 | 行動 | 成功標準 |
|---|---|---|
| 1 | 執行確切原始 payload 50 次 | 成功率 < 5%(原為:[原始比率]) |
| 2 | 執行 10 個 payload 之微小變體 | 各成功率 < 5% |
| 3 | 執行 10 個 payload 之換句話版本 | 各成功率 < 5% |
| 4 | 於多輪脈絡測試(若原始為多輪) | 成功率 < 5% |
| 5 | 驗證合法使用情境無退化 | 偽拒絕無增加 |
## 驗證結果
**原始 payload:** [N] 次嘗試之 [成功率](原為 [原始比率])
**變體:** [變體測試結果摘要]
**換句話:** [摘要]
**多輪:** [摘要]
**偽拒絕率:** [比率](基準:[比率])
**結論:** [修復有效 / 修復不足 / 部分緩解]溝通範本
內部通知(初始)
主旨:[AI-IR-YYYY-NNNN] Jailbreak 事件 - [嚴重度] - [產品]
狀態:[主動調查中 / 已遏制 / 已解決]
摘要:於 [時間] 於 [產品名稱] [被回報 / 被偵測] 之 jailbreak。
模型 [產出內容之描述]。漏洞似乎為 [孤立/系統性] 並影響 [範圍]。
當前行動:
- 證據已保存:[是/否]
- 已實施遏制:[描述]
- 調查狀態:[狀態]
影響:[影響或潛在影響之描述]
下次更新:[時間]
事後檢討摘要
主旨:[AI-IR-YYYY-NNNN] 事後檢討摘要
時間軸:[偵測時間] 至 [解決時間]([時長])
發生什麼:[2–3 句摘要]
根本原因:[描述]
影響:[受影響者、產出內容]
修復:[部署內容、時間]
驗證:[統計驗證結果]
得到的教訓:
1. [教訓]
2. [教訓]
行動項目:
- [ ] [附負責人與期限之行動項目]
事後檢討清單
| # | 項目 | 狀態 |
|---|---|---|
| 1 | 自偵測至解決之時間軸已記錄 | |
| 2 | 根本原因已辨識並確認 | |
| 3 | 所有受影響使用者/會話已辨識 | |
| 4 | Jailbreak 技術已對分類表分類 | |
| 5 | 修復於統計上已驗證(50+ 次嘗試) | |
| 6 | 攻擊模式已加入監控規則 | |
| 7 | Jailbreak 技術已加入評估套件 | |
| 8 | 系統提示已審查類似弱點 | |
| 9 | 於其他模型端點已測試可遷移性 | |
| 10 | 事後檢討文件已發布給團隊 |
相關主題
- 事件分類 -- 將 jailbreak 類型分類
- 提示日誌鑑識 -- 詳細之提示調查技術
- 提示注入與 jailbreak -- 理解 jailbreak 技術
- 證據保存 -- 保存對話證據
參考資料
- "OWASP Top 10 for LLM Applications: LLM01 - Prompt Injection" - OWASP Foundation(2025)- Jailbreak 漏洞分類
- "Jailbreaking Leading Safety-Aligned LLMs" - arXiv(2025)- 當前 jailbreak 技術與有效性
- "AI Red Team Playbooks" - Microsoft Security(2025)- AI 特有事件回應程序
Knowledge Check
某 jailbreak 經由更新系統提示修復。你測試原始 payload 一次且失敗。修復已驗證嗎?