Jailbreak 事件回應 Playbook

中級5 分鐘閱讀更新於 2026-03-15

回應生產 jailbreak 之逐步 playbook：偵測驗證、遏制策略、調查程序、補救步驟，以及事後檢討框架。

jailbreak playbook incident-response containment

Jailbreak 事件回應 Playbook

本 playbook 為回應生產 AI 系統中已確認或疑似 jailbreak 提供逐步程序。Jailbreak 發生於使用者使模型繞過其安全訓練或系統提示限制——產出違反其預期行為約束之輸出時。

觸發條件

下列任一情況發生時啟動此 playbook：

安全分類器將模型輸出標記為違反內容政策
使用者回報模型產出不應產出之內容
自動化監控於輸入日誌偵測 jailbreak 模式
內部測試發掘可重現之 jailbreak 技術
影響你的模型或系統提示之 jailbreak 遭外部揭露

立即行動（首 30 分鐘）

確認並指派

記錄事件 ID、偵測時間（UTC）與來源。指派事件指揮官與 AI 調查者角色。

事件 ID：AI-IR-[YYYY]-[NNNN]
偵測時間：[UTC 時間戳]
來源：[分類器告警 / 使用者回報 / 內部測試 / 外部揭露]
IC：[姓名]
AI 調查者：[姓名]

保存證據
於採取任何其他行動前擷取所有揮發性證據：
- 發生 jailbreak 之完整對話歷史（所有輪次，含系統提示）
- 當前系統提示版本（hash 與完整文字）
- 模型版本與推論參數（temperature、top_p 等）
- 被標記互動之安全分類器輸出
- 若模型具代理能力，任何工具呼叫紀錄
- 若系統使用檢索增強，RAG 檢索日誌
- 使用者身分與會話 metadata
將證據儲存於事件證據儲存庫，並附事件 ID。

評估範圍

判定 jailbreak 是孤立或系統性：

問題	如何判定	意涵
任何使用者是否能重現？	以新會話、不同使用者帳號測試	若是則為系統性
是否需要特定對話歷史？	於無先前脈絡下測試 payload	若是則為孤立
漏洞是否於系統提示中？	審查系統提示以尋找被利用之弱點	若是則為系統性
漏洞是否於基礎模型中？	以最小系統提示測試	系統性且更難修復
是否有多個 jailbreak 變體？	於日誌搜尋類似模式	更廣漏洞

實施初步遏制

依範圍評估：

範圍	遏制行動
孤立（單一會話）	終止會話；對該特定 payload 加輸入過濾
系統性（系統提示缺陷）	部署緊急系統提示修補；加輸入過濾
系統性（模型漏洞）	考慮切換至備援模型；加輸出分類器
多使用者主動利用	加積極輸入／輸出過濾；考慮端點關閉

通知利害關係人

依嚴重度：

嚴重度	通知
低（孤立、無有害輸出）	團隊主管、記錄以供追蹤
中（系統性但影響有限）	團隊主管、產品負責人
高（產出有害內容）	管理層、法務、合規
關鍵（公共安全風險、資料外洩）	執行團隊、法務、公關、監管聯絡人

調查（第 1–4 小時）

日誌分析

重建攻擊鏈
使用提示日誌鑑識技術，重建完整攻擊：
- 辨識每個階段：偵察、脈絡設定、邊界測試、payload 遞送、利用
- 分類 jailbreak 技術（直接、多輪、人格劫持、編碼繞過等）
- 判定模型防禦失效之確切輪次
界定損害範圍
檢視 jailbreak 後之所有模型輸出以判定：
- 產出何種違反政策之內容？
- 是否揭露任何敏感資料？
- 模型於被 jailbreak 狀態下是否採取任何行動（工具呼叫）？
- 其他使用者是否受相同技術影響？

搜尋相關活動

對類似攻擊模式查詢日誌：

-- 跨所有會話搜尋類似 jailbreak 模式
SELECT
    session_id,
    user_id,
    timestamp,
    substring(content, 1, 200) AS content_preview
FROM prompt_logs
WHERE (content ILIKE '%ignore previous%'
    OR content ILIKE '%you are now%'
    OR content ILIKE '%new instructions%'
    OR content ILIKE '%[specific payload pattern]%')
    AND timestamp > NOW() - INTERVAL '7 days'
ORDER BY timestamp DESC;

辨識根本原因

判定 jailbreak 為何成功：

根本原因類別	指標	修復層
系統提示弱點	提示缺乏對此攻擊類型之明確拒絕指令	應用
缺失之輸入過濾	對此攻擊模式無過濾器	應用
缺失之輸出分類器	無分類器或分類器未標記輸出	應用
模型安全缺口	基礎模型不拒絕此類請求	模型
上下文視窗利用	攻擊仰賴填滿上下文視窗以擠出指令	架構

遏制與補救

短期修復（於數小時內部署）

修復	實作	覆蓋
輸入過濾器	對特定攻擊模式加 regex 或以分類器為本之過濾器	封鎖此特定 payload；攻擊者可調整
輸出分類器	加入或更新輸出分類器以捕捉此輸出類別	不論輸入技術為何皆可捕捉輸出
系統提示加固	加入處理被利用弱點之明確指令	於應用層處理根本原因
速率限制	對可疑模式降低請求速率	延緩自動化利用

長期修復（於數日—數週內部署）

修復	實作	覆蓋
安全微調	以處理此弱點之範例微調模型	處理模型層漏洞
全面提示審查	稽核整個系統提示以尋找類似弱點	防止相關攻擊變體
縱深防禦	疊合輸入過濾器、輸出分類器與系統提示加固	確保無單一繞過擊敗所有防禦
Jailbreak 評估套件	將此技術加入自動化測試	於未來更新中捕捉退化

驗證

驗證程序

步驟	行動	成功標準
1	執行確切原始 payload 50 次	成功率 < 5%（原為：[原始比率]）
2	執行 10 個 payload 之微小變體	各成功率 < 5%
3	執行 10 個 payload 之換句話版本	各成功率 < 5%
4	於多輪脈絡測試（若原始為多輪）	成功率 < 5%
5	驗證合法使用情境無退化	偽拒絕無增加

## 驗證結果
 
**原始 payload：** [N] 次嘗試之 [成功率]（原為 [原始比率]）
**變體：** [變體測試結果摘要]
**換句話：** [摘要]
**多輪：** [摘要]
**偽拒絕率：** [比率]（基準：[比率]）
**結論：** [修復有效 / 修復不足 / 部分緩解]

溝通範本

內部通知（初始）

主旨：[AI-IR-YYYY-NNNN] Jailbreak 事件 - [嚴重度] - [產品]

狀態：[主動調查中 / 已遏制 / 已解決]

摘要：於 [時間] 於 [產品名稱] [被回報 / 被偵測] 之 jailbreak。
模型 [產出內容之描述]。漏洞似乎為 [孤立／系統性] 並影響 [範圍]。

當前行動：
- 證據已保存：[是／否]
- 已實施遏制：[描述]
- 調查狀態：[狀態]

影響：[影響或潛在影響之描述]

下次更新：[時間]

事後檢討摘要

主旨：[AI-IR-YYYY-NNNN] 事後檢討摘要

時間軸：[偵測時間] 至 [解決時間]（[時長]）

發生什麼：[2–3 句摘要]

根本原因：[描述]

影響：[受影響者、產出內容]

修復：[部署內容、時間]

驗證：[統計驗證結果]

得到的教訓：
1. [教訓]
2. [教訓]

行動項目：
- [ ] [附負責人與期限之行動項目]

事後檢討清單

#	項目	狀態
1	自偵測至解決之時間軸已記錄
2	根本原因已辨識並確認
3	所有受影響使用者／會話已辨識
4	Jailbreak 技術已對分類表分類
5	修復於統計上已驗證（50+ 次嘗試）
6	攻擊模式已加入監控規則
7	Jailbreak 技術已加入評估套件
8	系統提示已審查類似弱點
9	於其他模型端點已測試可遷移性
10	事後檢討文件已發布給團隊

參考資料

"OWASP Top 10 for LLM Applications: LLM01 - Prompt Injection" - OWASP Foundation（2025）- Jailbreak 漏洞分類
"Jailbreaking Leading Safety-Aligned LLMs" - arXiv（2025）- 當前 jailbreak 技術與有效性
"AI Red Team Playbooks" - Microsoft Security（2025）- AI 特有事件回應程序

Knowledge Check

某 jailbreak 經由更新系統提示修復。你測試原始 payload 一次且失敗。修復已驗證嗎？

Jailbreak 事件回應 Playbook

中級5 分鐘閱讀更新於 2026-03-15

回應生產 jailbreak 之逐步 playbook：偵測驗證、遏制策略、調查程序、補救步驟，以及事後檢討框架。

jailbreak playbook incident-response containment

Jailbreak 事件回應 Playbook

觸發條件

下列任一情況發生時啟動此 playbook：

安全分類器將模型輸出標記為違反內容政策
使用者回報模型產出不應產出之內容
自動化監控於輸入日誌偵測 jailbreak 模式
內部測試發掘可重現之 jailbreak 技術
影響你的模型或系統提示之 jailbreak 遭外部揭露

立即行動（首 30 分鐘）

確認並指派

記錄事件 ID、偵測時間（UTC）與來源。指派事件指揮官與 AI 調查者角色。

事件 ID：AI-IR-[YYYY]-[NNNN]
偵測時間：[UTC 時間戳]
來源：[分類器告警 / 使用者回報 / 內部測試 / 外部揭露]
IC：[姓名]
AI 調查者：[姓名]

保存證據
於採取任何其他行動前擷取所有揮發性證據：
- 發生 jailbreak 之完整對話歷史（所有輪次，含系統提示）
- 當前系統提示版本（hash 與完整文字）
- 模型版本與推論參數（temperature、top_p 等）
- 被標記互動之安全分類器輸出
- 若模型具代理能力，任何工具呼叫紀錄
- 若系統使用檢索增強，RAG 檢索日誌
- 使用者身分與會話 metadata
將證據儲存於事件證據儲存庫，並附事件 ID。

評估範圍

判定 jailbreak 是孤立或系統性：

問題	如何判定	意涵
任何使用者是否能重現？	以新會話、不同使用者帳號測試	若是則為系統性
是否需要特定對話歷史？	於無先前脈絡下測試 payload	若是則為孤立
漏洞是否於系統提示中？	審查系統提示以尋找被利用之弱點	若是則為系統性
漏洞是否於基礎模型中？	以最小系統提示測試	系統性且更難修復
是否有多個 jailbreak 變體？	於日誌搜尋類似模式	更廣漏洞

實施初步遏制

依範圍評估：

範圍	遏制行動
孤立（單一會話）	終止會話；對該特定 payload 加輸入過濾
系統性（系統提示缺陷）	部署緊急系統提示修補；加輸入過濾
系統性（模型漏洞）	考慮切換至備援模型；加輸出分類器
多使用者主動利用	加積極輸入／輸出過濾；考慮端點關閉

通知利害關係人

依嚴重度：

嚴重度	通知
低（孤立、無有害輸出）	團隊主管、記錄以供追蹤
中（系統性但影響有限）	團隊主管、產品負責人
高（產出有害內容）	管理層、法務、合規
關鍵（公共安全風險、資料外洩）	執行團隊、法務、公關、監管聯絡人

調查（第 1–4 小時）

日誌分析

重建攻擊鏈
使用提示日誌鑑識技術，重建完整攻擊：
- 辨識每個階段：偵察、脈絡設定、邊界測試、payload 遞送、利用
- 分類 jailbreak 技術（直接、多輪、人格劫持、編碼繞過等）
- 判定模型防禦失效之確切輪次
界定損害範圍
檢視 jailbreak 後之所有模型輸出以判定：
- 產出何種違反政策之內容？
- 是否揭露任何敏感資料？
- 模型於被 jailbreak 狀態下是否採取任何行動（工具呼叫）？
- 其他使用者是否受相同技術影響？

搜尋相關活動

對類似攻擊模式查詢日誌：

-- 跨所有會話搜尋類似 jailbreak 模式
SELECT
    session_id,
    user_id,
    timestamp,
    substring(content, 1, 200) AS content_preview
FROM prompt_logs
WHERE (content ILIKE '%ignore previous%'
    OR content ILIKE '%you are now%'
    OR content ILIKE '%new instructions%'
    OR content ILIKE '%[specific payload pattern]%')
    AND timestamp > NOW() - INTERVAL '7 days'
ORDER BY timestamp DESC;

辨識根本原因

判定 jailbreak 為何成功：

根本原因類別	指標	修復層
系統提示弱點	提示缺乏對此攻擊類型之明確拒絕指令	應用
缺失之輸入過濾	對此攻擊模式無過濾器	應用
缺失之輸出分類器	無分類器或分類器未標記輸出	應用
模型安全缺口	基礎模型不拒絕此類請求	模型
上下文視窗利用	攻擊仰賴填滿上下文視窗以擠出指令	架構

遏制與補救

短期修復（於數小時內部署）

修復	實作	覆蓋
輸入過濾器	對特定攻擊模式加 regex 或以分類器為本之過濾器	封鎖此特定 payload；攻擊者可調整
輸出分類器	加入或更新輸出分類器以捕捉此輸出類別	不論輸入技術為何皆可捕捉輸出
系統提示加固	加入處理被利用弱點之明確指令	於應用層處理根本原因
速率限制	對可疑模式降低請求速率	延緩自動化利用

長期修復（於數日—數週內部署）

修復	實作	覆蓋
安全微調	以處理此弱點之範例微調模型	處理模型層漏洞
全面提示審查	稽核整個系統提示以尋找類似弱點	防止相關攻擊變體
縱深防禦	疊合輸入過濾器、輸出分類器與系統提示加固	確保無單一繞過擊敗所有防禦
Jailbreak 評估套件	將此技術加入自動化測試	於未來更新中捕捉退化

驗證

驗證程序

步驟	行動	成功標準
1	執行確切原始 payload 50 次	成功率 < 5%（原為：[原始比率]）
2	執行 10 個 payload 之微小變體	各成功率 < 5%
3	執行 10 個 payload 之換句話版本	各成功率 < 5%
4	於多輪脈絡測試（若原始為多輪）	成功率 < 5%
5	驗證合法使用情境無退化	偽拒絕無增加

## 驗證結果
 
**原始 payload：** [N] 次嘗試之 [成功率]（原為 [原始比率]）
**變體：** [變體測試結果摘要]
**換句話：** [摘要]
**多輪：** [摘要]
**偽拒絕率：** [比率]（基準：[比率]）
**結論：** [修復有效 / 修復不足 / 部分緩解]

溝通範本

內部通知（初始）

主旨：[AI-IR-YYYY-NNNN] Jailbreak 事件 - [嚴重度] - [產品]

狀態：[主動調查中 / 已遏制 / 已解決]

摘要：於 [時間] 於 [產品名稱] [被回報 / 被偵測] 之 jailbreak。
模型 [產出內容之描述]。漏洞似乎為 [孤立／系統性] 並影響 [範圍]。

當前行動：
- 證據已保存：[是／否]
- 已實施遏制：[描述]
- 調查狀態：[狀態]

影響：[影響或潛在影響之描述]

下次更新：[時間]

事後檢討摘要

主旨：[AI-IR-YYYY-NNNN] 事後檢討摘要

時間軸：[偵測時間] 至 [解決時間]（[時長]）

發生什麼：[2–3 句摘要]

根本原因：[描述]

影響：[受影響者、產出內容]

修復：[部署內容、時間]

驗證：[統計驗證結果]

得到的教訓：
1. [教訓]
2. [教訓]

行動項目：
- [ ] [附負責人與期限之行動項目]

事後檢討清單

#	項目	狀態
1	自偵測至解決之時間軸已記錄
2	根本原因已辨識並確認
3	所有受影響使用者／會話已辨識
4	Jailbreak 技術已對分類表分類
5	修復於統計上已驗證（50+ 次嘗試）
6	攻擊模式已加入監控規則
7	Jailbreak 技術已加入評估套件
8	系統提示已審查類似弱點
9	於其他模型端點已測試可遷移性
10	事後檢討文件已發布給團隊

參考資料

"OWASP Top 10 for LLM Applications: LLM01 - Prompt Injection" - OWASP Foundation（2025）- Jailbreak 漏洞分類
"Jailbreaking Leading Safety-Aligned LLMs" - arXiv（2025）- 當前 jailbreak 技術與有效性
"AI Red Team Playbooks" - Microsoft Security（2025）- AI 特有事件回應程序

Knowledge Check

某 jailbreak 經由更新系統提示修復。你測試原始 payload 一次且失敗。修復已驗證嗎？

Jailbreak 事件回應 Playbook

確認並指派

保存證據

評估範圍

實施初步遏制

通知利害關係人

重建攻擊鏈

界定損害範圍

搜尋相關活動

辨識根本原因

相關文章

Jailbreak 事件回應 Playbook

確認並指派

保存證據

評估範圍

實施初步遏制

通知利害關係人

重建攻擊鏈

界定損害範圍

搜尋相關活動

辨識根本原因

相關文章