防禦繞過快速參考

Intermediate2 min readUpdated 2026-03-13

常見 AI 防禦機制及其已知繞過技術的快速參考卡，依防禦類型組織。

reference cheat-sheet defense-bypass guardrails

輸入過濾繞過

防禦	機制	繞過技術
關鍵字封鎖列表	對輸入進行正則表達式/字串比對	同義詞、Unicode 同形字、斷詞、編碼（Base64、ROT13）、外語
語意分類器	分類輸入意圖的 ML 模型	對抗性框架、間接引用、多輪累積、上下文稀釋
符元限制	限制輸入長度	壓縮、縮寫、多輪拆分
語言偵測	封鎖非英文輸入	混合語言提示詞、碼切換、轉寫
速率限制	限制請求頻率	分散式請求、多變時序、會話輪替

系統提示詞加固繞過

防禦	機制	繞過技術
指令階層	「這些規則不能被覆蓋」	假設性框架、完成攻擊、元指令混淆
角色鎖定	「你是 X 且只是 X」	逐步人格轉移、巢狀角色扮演、「扮演一個版本的你自己…」
主題限制	「只討論 X 主題」	切線方法、「這與 X 相關是因為…」、重新框架為範圍內
拒絕訓練	RLHF/DPO 安全對齊	少範例越獄、上下文操控、透過樂於助人框架的獎勵駭入
少範例範本	在提示詞中展示拒絕	以更多配合範例壓倒、矛盾的範例

輸出過濾繞過

防禦	機制	繞過技術
關鍵字封鎖列表	對輸出進行字串比對	請求改述、翻譯、縮寫、倒序文字、編碼
毒性分類器	對輸出計分的 ML 模型	委婉語、學術框架、虛構脈絡、漸進升級
PII 偵測器	對個人資料的正則表達式/NER	部分資訊、以引用代替值、編碼輸出
LLM 裁判	次級 LLM 評估輸出	模糊框架、讓輸出看似良性的脈絡、格式技巧

多層防禦繞過策略

探測
送出測試輸入以識別哪些防禦層處於活躍。記錄哪些被阻擋以及在哪個階段。
隔離
獨立測試每一層。找出在隔離情況下對每一層有效的繞過技術。
串接
結合同時處理不同層的繞過技術。輸入規避 + 提示詞繞過 + 輸出規避。
迭代
根據失敗模式精煉串接繞過。調整個別技術直到完整鏈成功。

Knowledge Check

測試多層防禦（輸入過濾器 + 加固提示詞 + 輸出過濾器）時，什麼是最有效的方法？

參考文獻

"Jailbroken: How Does LLM Safety Training Fail?" - Wei et al. (2023) - 對安全訓練失敗模式與繞過類別的分析
"Universal and Transferable Adversarial Attacks on Aligned Language Models" - Zou et al. (2023) - 自動化對抗性後綴產生
"Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models" - Shen et al. (2024) - 真實世界越獄模式的分類
OWASP LLM Top 10 (2025) - OWASP Foundation - 對應到漏洞類別的防禦要求

防禦繞過快速參考

Intermediate2 min readUpdated 2026-03-13

常見 AI 防禦機制及其已知繞過技術的快速參考卡，依防禦類型組織。

reference cheat-sheet defense-bypass guardrails

輸入過濾繞過

防禦	機制	繞過技術
關鍵字封鎖列表	對輸入進行正則表達式/字串比對	同義詞、Unicode 同形字、斷詞、編碼（Base64、ROT13）、外語
語意分類器	分類輸入意圖的 ML 模型	對抗性框架、間接引用、多輪累積、上下文稀釋
符元限制	限制輸入長度	壓縮、縮寫、多輪拆分
語言偵測	封鎖非英文輸入	混合語言提示詞、碼切換、轉寫
速率限制	限制請求頻率	分散式請求、多變時序、會話輪替

系統提示詞加固繞過

防禦	機制	繞過技術
指令階層	「這些規則不能被覆蓋」	假設性框架、完成攻擊、元指令混淆
角色鎖定	「你是 X 且只是 X」	逐步人格轉移、巢狀角色扮演、「扮演一個版本的你自己…」
主題限制	「只討論 X 主題」	切線方法、「這與 X 相關是因為…」、重新框架為範圍內
拒絕訓練	RLHF/DPO 安全對齊	少範例越獄、上下文操控、透過樂於助人框架的獎勵駭入
少範例範本	在提示詞中展示拒絕	以更多配合範例壓倒、矛盾的範例

輸出過濾繞過

防禦	機制	繞過技術
關鍵字封鎖列表	對輸出進行字串比對	請求改述、翻譯、縮寫、倒序文字、編碼
毒性分類器	對輸出計分的 ML 模型	委婉語、學術框架、虛構脈絡、漸進升級
PII 偵測器	對個人資料的正則表達式/NER	部分資訊、以引用代替值、編碼輸出
LLM 裁判	次級 LLM 評估輸出	模糊框架、讓輸出看似良性的脈絡、格式技巧

多層防禦繞過策略

探測
送出測試輸入以識別哪些防禦層處於活躍。記錄哪些被阻擋以及在哪個階段。
隔離
獨立測試每一層。找出在隔離情況下對每一層有效的繞過技術。
串接
結合同時處理不同層的繞過技術。輸入規避 + 提示詞繞過 + 輸出規避。
迭代
根據失敗模式精煉串接繞過。調整個別技術直到完整鏈成功。

Knowledge Check

測試多層防禦（輸入過濾器 + 加固提示詞 + 輸出過濾器）時，什麼是最有效的方法？

參考文獻

"Jailbroken: How Does LLM Safety Training Fail?" - Wei et al. (2023) - 對安全訓練失敗模式與繞過類別的分析
"Universal and Transferable Adversarial Attacks on Aligned Language Models" - Zou et al. (2023) - 自動化對抗性後綴產生
"Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models" - Shen et al. (2024) - 真實世界越獄模式的分類
OWASP LLM Top 10 (2025) - OWASP Foundation - 對應到漏洞類別的防禦要求

防禦繞過快速參考

輸入過濾繞過

系統提示詞加固繞過

輸出過濾繞過

多層防禦繞過策略

探測

隔離

串接

迭代

相關主題

參考文獻

防禦繞過快速參考

輸入過濾繞過

系統提示詞加固繞過

輸出過濾繞過

多層防禦繞過策略

探測

隔離

串接

迭代

相關主題

參考文獻

防禦繞過快速參考

探測

隔離

串接

迭代

Related articles

防禦繞過快速參考

探測

隔離

串接

迭代

Related articles