AI 防禦分類
入門5 分鐘閱讀更新於 2026-03-15
所有 AI 防禦途徑按層、方法與有效性組織之完整分類,提供評估防禦策略之結構化框架。
AI 防禦分類
AI 防禦分類將防禦途徑之完整光譜組織為結構化框架。而非將每個防禦視為隔離技術,分類揭示防禦如何互動、缺口何在,與哪些組合對不同攻擊類別提供有意義保護。
分類概觀
AI 防禦於六個不同層運作,自最外(網路周邊)至最內(模型權重):
Defense Layers (outer to inner):
Layer 6: Governance & Policy
└── Responsible use policies, legal frameworks, incident response
Layer 5: Application
└── Rate limiting, access control, audit logging, API design
Layer 4: Output
└── Content filtering, PII detection, response validation
Layer 3: Inference
└── Input sanitization, prompt shields, instruction hierarchy
Layer 2: Training
└── Safety alignment, adversarial training, data curation
Layer 1: Architecture
└── Model design, capability restrictions, isolation boundaries
層 1:架構防禦
建入基本系統設計之防禦。
能力限制
| 防禦 | 描述 | 有效性 |
|---|---|---|
| 工具允許清單 | 明確列舉允許之工具呼叫 | 對工具濫用高 |
| 沙箱化執行 | 於隔離環境執行代理動作 | 對系統受損高 |
| 能力分離 | 將讀取/寫入/執行分至不同模型 | 對特權升級中高 |
| 脈絡隔離 | 於架構層級防止跨租戶資料存取 | 對資料洩漏高 |
模型設計選擇
| 防禦 | 描述 | 有效性 |
|---|---|---|
| 為敏感任務之較小模型 | 使用具較少能力之特殊化、較小模型 | 對廣泛攻擊中 |
| 分離之安全分類器 | 獨立於生成之安全評估專用模型 | 對已知攻擊類型中高 |
| 雙模型驗證 | 於執行動作前兩個獨立模型須同意 | 高但昂貴 |
| 檢索分離 | 以安全邊界分離檢索與生成階段 | 對 RAG 投毒中 |
層 2:訓練時防禦
於模型訓練期間套用之防禦以建立固有穩健度。
安全對齊方法
| 方法 | 描述 | 優勢 | 弱點 |
|---|---|---|---|
| RLHF | 於人類對安全之偏好上訓練獎勵模型 | 良好研究、對常見案例有效 | 獎勵駭入、分布轉移 |
| DPO | 無獎勵模型之直接偏好最佳化 | 較簡單、較少失敗模式 | 較 RLHF 不靈活 |
| 憲法 AI | 模型對原則自我評估 | 可擴展、一致 | 取決於原則完整性 |
| 紅隊資料增強 | 於訓練含已知攻擊 | 直接處理已知威脅 | 無法涵蓋新穎攻擊 |
資料層級防禦
| 方法 | 描述 | 有效性 |
|---|---|---|
| 資料策展 | 訓練資料之仔細選擇與過濾 | 必要基礎 |
| 去重 | 移除重複與近重複之訓練樣本 | 降低記憶化風險 |
| 差分隱私 | 於訓練加入雜訊以限制個別樣本影響 | 可證保證但效用成本 |
| 浮水印偵測 | 自訓練資料偵測並過濾 AI 生成內容 | 中等、演化之軍備競賽 |
層 3:推論時防禦
於模型推論期間運作於輸入與輸出間之防禦。
輸入處理
| 防禦 | 描述 | 對抗 |
|---|---|---|
| 指令層級 | 執行系統 > 使用者 > 脈絡優先度 | 提示注入 |
| 提示盾 | 偵測注入嘗試之 ML 分類器 | 提示注入 |
| 輸入淨化 | 移除特殊字元、正規化編碼 | Tokenizer 攻擊 |
| 困惑度過濾 | 拒絕具異常高困惑度之輸入 | 對抗後綴 |
| 輸入長度限制 | 每來源限制最大輸入長度 | 脈絡視窗攻擊 |
推論修改
| 防禦 | 描述 | 對抗 |
|---|---|---|
| SmoothLLM | 為穩健度之隨機輸入擾動 | 對抗後綴 |
| 啟動監控 | 監控隱藏狀態啟動以偵測異常 | 啟動引導 |
| 注意力模式檢查 | 驗證正常注意力分布 | 脈絡操弄 |
| 溫度控制 | 限制取樣參數 | 輸出操弄 |
層 4:輸出防禦
於遞送前處理模型輸出之防禦。
| 防禦 | 描述 | 對抗 |
|---|---|---|
| 內容安全分類器 | 分類輸出安全之 ML 模型 | 有害內容生成 |
| PII 偵測與編輯 | 掃描輸出尋找個人資訊 | 資料外洩 |
| URL/網域允許清單 | 僅允許對核可網域之參照 | 經 AI 之網釣 |
| 回應一致性檢查 | 驗證輸出與預期行為對齊 | 異常行為 |
| 輸出格式驗證 | 確保回應匹配預期結構 | 格式操弄 |
| 浮水印 | 於輸出嵌入可偵測訊號 | 來源追蹤 |
層 5:應用防禦
於 AI 模型周圍之應用層之防禦。
| 防禦 | 描述 | 對抗 |
|---|---|---|
| 速率限制 | 每使用者/會話限制請求量 | 自動化攻擊、提取 |
| 身分驗證與授權 | 驗證使用者身分與權限 | 未授權存取 |
| 稽核記錄 | 記錄所有互動供審查 | 事件後分析 |
| 工具呼叫核准 | 為敏感動作需人類核准 | 工具濫用 |
| 會話管理 | 限制對話長度、執行重置 | 脈絡累積攻擊 |
| 為安全之 A/B 測試 | 比較模型版本尋找安全回歸 | 部署安全 |
層 6:治理與政策
框架整體安全態勢之非技術防禦。
| 防禦 | 描述 | 對抗 |
|---|---|---|
| 負責任使用政策 | 定義可接受使用與後果 | 由授權使用者誤用 |
| 事件回應計畫 | 為處理安全事件之程序 | 所有攻擊類型(回應) |
| 漏洞賞金/紅隊 | 激勵外部安全測試 | 未知漏洞 |
| 模型卡與文件 | 記錄模型能力與限制 | 對能力之誤解 |
| 法規合規 | 與 AI 安全法規對齊 | 法律與合規風險 |
防禦有效性矩陣
將防禦映射至攻擊類型揭示涵蓋與缺口:
| 攻擊類型 | 最有效之防禦 | 有限防禦 | 無效防禦 |
|---|---|---|---|
| 直接提示注入 | 指令層級、提示盾 | 輸出過濾 | 速率限制 |
| 間接提示注入 | 每來源輸入淨化、脈絡隔離 | 內容分類器 | 身分驗證 |
| 對抗後綴 | 困惑度過濾、SmoothLLM | 輸出過濾 | 輸入長度限制 |
| 語意注入 | 意圖分類器、雙模型驗證 | 關鍵字過濾器 | 所有語法防禦 |
| 資料投毒 | 資料策展、差分隱私 | 模型監控 | 輸出過濾 |
| 模型提取 | 速率限制、浮水印 | API 設計 | 輸入淨化 |
| 工具濫用 | 工具允許清單、核准工作流程 | 輸出過濾 | 提示盾 |
| RAG 投毒 | 內容驗證、來源身分驗證 | 輸出過濾 | 速率限制 |
防禦成熟度模型
組織可跨這些層級評估其防禦成熟度:
層級 1:臨時(無系統化防禦)
無正式 AI 安全控制。模型僅以預設安全訓練部署。對事件反應性回應。
層級 2:基礎(輸入/輸出過濾)
於輸入與輸出之內容安全分類器。基礎速率限制。某些記錄就位。
層級 3:結構化(多層防禦)
於多個層之系統化防禦。指令層級被執行。工具權限定義。定期紅隊測試。
層級 4:受管(已量測並監控)
防禦有效性量化量測。具警報之持續監控。對偵測之攻擊之自動化回應。對新攻擊技術之定期防禦評估。
層級 5:最佳化(適配與預期)
防禦適配新興威脅。新穎攻擊類別之主動紅隊。縱深防禦配無單一失效點。基於威脅情報之持續改善。
選擇防禦組合
無單一防禦充足。有效保護需選擇互補防禦:
最小可行防禦堆疊
為任何生產 AI 部署:
- 輸入:指令層級 + 基礎輸入驗證
- 輸出:內容安全分類器 + PII 偵測
- 應用:速率限制 + 稽核記錄
- 治理:事件回應計畫 + 負責任使用政策
增強防禦堆疊
為高風險部署(財務、醫療、政府):
以上所有,加上:
- 架構:工具允許清單 + 沙箱化執行 + 脈絡隔離
- 訓練:對抗訓練 + 紅隊資料增強
- 推論:提示盾 + SmoothLLM + 啟動監控
- 應用:工具呼叫核准工作流程 + 會話限制
- 治理:定期紅隊評估 + 漏洞賞金
相關主題
- 防禦地景 —— 更廣防禦脈絡與演化
- 分層防禦策略 —— 實作縱深防禦
- 防禦評估 —— 量測防禦有效性
- 防禦經濟學 —— 防禦之成本效益分析
Knowledge Check
公司以 RLHF 安全訓練與於輸出之內容安全分類器部署 AI 聊天機器人。其最不受保護之攻擊類型為何?
參考資料
- OWASP, "Top 10 for Large Language Model Applications"(2024)
- NIST, "AI Risk Management Framework"(2023)
- MITRE, "ATLAS: Adversarial Threat Landscape for AI Systems"(2023)
- Microsoft, "AI Red Team Lessons Learned"(2023)