防禦繞過快速參考
Intermediate2 min readUpdated 2026-03-13
常見 AI 防禦機制及其已知繞過技術的快速參考卡,依防禦類型組織。
輸入過濾繞過
| 防禦 | 機制 | 繞過技術 |
|---|---|---|
| 關鍵字封鎖列表 | 對輸入進行正則表達式/字串比對 | 同義詞、Unicode 同形字、斷詞、編碼(Base64、ROT13)、外語 |
| 語意分類器 | 分類輸入意圖的 ML 模型 | 對抗性框架、間接引用、多輪累積、上下文稀釋 |
| 符元限制 | 限制輸入長度 | 壓縮、縮寫、多輪拆分 |
| 語言偵測 | 封鎖非英文輸入 | 混合語言提示詞、碼切換、轉寫 |
| 速率限制 | 限制請求頻率 | 分散式請求、多變時序、會話輪替 |
系統提示詞加固繞過
| 防禦 | 機制 | 繞過技術 |
|---|---|---|
| 指令階層 | 「這些規則不能被覆蓋」 | 假設性框架、完成攻擊、元指令混淆 |
| 角色鎖定 | 「你是 X 且只是 X」 | 逐步人格轉移、巢狀角色扮演、「扮演一個版本的你自己…」 |
| 主題限制 | 「只討論 X 主題」 | 切線方法、「這與 X 相關是因為…」、重新框架為範圍內 |
| 拒絕訓練 | RLHF/DPO 安全對齊 | 少範例越獄、上下文操控、透過樂於助人框架的獎勵駭入 |
| 少範例範本 | 在提示詞中展示拒絕 | 以更多配合範例壓倒、矛盾的範例 |
輸出過濾繞過
| 防禦 | 機制 | 繞過技術 |
|---|---|---|
| 關鍵字封鎖列表 | 對輸出進行字串比對 | 請求改述、翻譯、縮寫、倒序文字、編碼 |
| 毒性分類器 | 對輸出計分的 ML 模型 | 委婉語、學術框架、虛構脈絡、漸進升級 |
| PII 偵測器 | 對個人資料的正則表達式/NER | 部分資訊、以引用代替值、編碼輸出 |
| LLM 裁判 | 次級 LLM 評估輸出 | 模糊框架、讓輸出看似良性的脈絡、格式技巧 |
多層防禦繞過策略
探測
送出測試輸入以識別哪些防禦層處於活躍。記錄哪些被阻擋以及在哪個階段。
隔離
獨立測試每一層。找出在隔離情況下對每一層有效的繞過技術。
串接
結合同時處理不同層的繞過技術。輸入規避 + 提示詞繞過 + 輸出規避。
迭代
根據失敗模式精煉串接繞過。調整個別技術直到完整鏈成功。
Knowledge Check
測試多層防禦(輸入過濾器 + 加固提示詞 + 輸出過濾器)時,什麼是最有效的方法?
相關主題
- 防禦規避 - 規避技術的深入涵蓋
- 護欄架構 - 理解你正在繞過的防禦
- 提示詞注入快速參考 - 注入技術模式
- 越獄技術 - 模型層級的安全繞過
- 實驗室:系統性防禦繞過 - 動手練習
參考文獻
- "Jailbroken: How Does LLM Safety Training Fail?" - Wei et al. (2023) - 對安全訓練失敗模式與繞過類別的分析
- "Universal and Transferable Adversarial Attacks on Aligned Language Models" - Zou et al. (2023) - 自動化對抗性後綴產生
- "Do Anything Now: Characterizing and Evaluating In-The-Wild Jailbreak Prompts on Large Language Models" - Shen et al. (2024) - 真實世界越獄模式的分類
- OWASP LLM Top 10 (2025) - OWASP Foundation - 對應到漏洞類別的防禦要求