AI 防禦分類

入門5 分鐘閱讀更新於 2026-03-15

所有 AI 防禦途徑按層、方法與有效性組織之完整分類，提供評估防禦策略之結構化框架。

defense taxonomy categorization framework security-layers

AI 防禦分類

AI 防禦分類將防禦途徑之完整光譜組織為結構化框架。而非將每個防禦視為隔離技術，分類揭示防禦如何互動、缺口何在，與哪些組合對不同攻擊類別提供有意義保護。

分類概觀

AI 防禦於六個不同層運作，自最外（網路周邊）至最內（模型權重）：

Defense Layers (outer to inner):

Layer 6: Governance & Policy
  └── Responsible use policies, legal frameworks, incident response

Layer 5: Application
  └── Rate limiting, access control, audit logging, API design

Layer 4: Output
  └── Content filtering, PII detection, response validation

Layer 3: Inference
  └── Input sanitization, prompt shields, instruction hierarchy

Layer 2: Training
  └── Safety alignment, adversarial training, data curation

Layer 1: Architecture
  └── Model design, capability restrictions, isolation boundaries

層 1：架構防禦

建入基本系統設計之防禦。

能力限制

防禦	描述	有效性
工具允許清單	明確列舉允許之工具呼叫	對工具濫用高
沙箱化執行	於隔離環境執行代理動作	對系統受損高
能力分離	將讀取／寫入／執行分至不同模型	對特權升級中高
脈絡隔離	於架構層級防止跨租戶資料存取	對資料洩漏高

模型設計選擇

防禦	描述	有效性
為敏感任務之較小模型	使用具較少能力之特殊化、較小模型	對廣泛攻擊中
分離之安全分類器	獨立於生成之安全評估專用模型	對已知攻擊類型中高
雙模型驗證	於執行動作前兩個獨立模型須同意	高但昂貴
檢索分離	以安全邊界分離檢索與生成階段	對 RAG 投毒中

層 2：訓練時防禦

於模型訓練期間套用之防禦以建立固有穩健度。

安全對齊方法

方法	描述	優勢	弱點
RLHF	於人類對安全之偏好上訓練獎勵模型	良好研究、對常見案例有效	獎勵駭入、分布轉移
DPO	無獎勵模型之直接偏好最佳化	較簡單、較少失敗模式	較 RLHF 不靈活
憲法 AI	模型對原則自我評估	可擴展、一致	取決於原則完整性
紅隊資料增強	於訓練含已知攻擊	直接處理已知威脅	無法涵蓋新穎攻擊

資料層級防禦

方法	描述	有效性
資料策展	訓練資料之仔細選擇與過濾	必要基礎
去重	移除重複與近重複之訓練樣本	降低記憶化風險
差分隱私	於訓練加入雜訊以限制個別樣本影響	可證保證但效用成本
浮水印偵測	自訓練資料偵測並過濾 AI 生成內容	中等、演化之軍備競賽

層 3：推論時防禦

於模型推論期間運作於輸入與輸出間之防禦。

輸入處理

防禦	描述	對抗
指令層級	執行系統 > 使用者 > 脈絡優先度	提示注入
提示盾	偵測注入嘗試之 ML 分類器	提示注入
輸入淨化	移除特殊字元、正規化編碼	Tokenizer 攻擊
困惑度過濾	拒絕具異常高困惑度之輸入	對抗後綴
輸入長度限制	每來源限制最大輸入長度	脈絡視窗攻擊

推論修改

防禦	描述	對抗
SmoothLLM	為穩健度之隨機輸入擾動	對抗後綴
啟動監控	監控隱藏狀態啟動以偵測異常	啟動引導
注意力模式檢查	驗證正常注意力分布	脈絡操弄
溫度控制	限制取樣參數	輸出操弄

層 4：輸出防禦

於遞送前處理模型輸出之防禦。

防禦	描述	對抗
內容安全分類器	分類輸出安全之 ML 模型	有害內容生成
PII 偵測與編輯	掃描輸出尋找個人資訊	資料外洩
URL／網域允許清單	僅允許對核可網域之參照	經 AI 之網釣
回應一致性檢查	驗證輸出與預期行為對齊	異常行為
輸出格式驗證	確保回應匹配預期結構	格式操弄
浮水印	於輸出嵌入可偵測訊號	來源追蹤

層 5：應用防禦

於 AI 模型周圍之應用層之防禦。

防禦	描述	對抗
速率限制	每使用者／會話限制請求量	自動化攻擊、提取
身分驗證與授權	驗證使用者身分與權限	未授權存取
稽核記錄	記錄所有互動供審查	事件後分析
工具呼叫核准	為敏感動作需人類核准	工具濫用
會話管理	限制對話長度、執行重置	脈絡累積攻擊
為安全之 A/B 測試	比較模型版本尋找安全回歸	部署安全

層 6：治理與政策

框架整體安全態勢之非技術防禦。

防禦	描述	對抗
負責任使用政策	定義可接受使用與後果	由授權使用者誤用
事件回應計畫	為處理安全事件之程序	所有攻擊類型（回應）
漏洞賞金／紅隊	激勵外部安全測試	未知漏洞
模型卡與文件	記錄模型能力與限制	對能力之誤解
法規合規	與 AI 安全法規對齊	法律與合規風險

防禦有效性矩陣

將防禦映射至攻擊類型揭示涵蓋與缺口：

攻擊類型	最有效之防禦	有限防禦	無效防禦
直接提示注入	指令層級、提示盾	輸出過濾	速率限制
間接提示注入	每來源輸入淨化、脈絡隔離	內容分類器	身分驗證
對抗後綴	困惑度過濾、SmoothLLM	輸出過濾	輸入長度限制
語意注入	意圖分類器、雙模型驗證	關鍵字過濾器	所有語法防禦
資料投毒	資料策展、差分隱私	模型監控	輸出過濾
模型提取	速率限制、浮水印	API 設計	輸入淨化
工具濫用	工具允許清單、核准工作流程	輸出過濾	提示盾
RAG 投毒	內容驗證、來源身分驗證	輸出過濾	速率限制

防禦成熟度模型

組織可跨這些層級評估其防禦成熟度：

層級 1：臨時（無系統化防禦）
無正式 AI 安全控制。模型僅以預設安全訓練部署。對事件反應性回應。
層級 2：基礎（輸入／輸出過濾）
於輸入與輸出之內容安全分類器。基礎速率限制。某些記錄就位。
層級 3：結構化（多層防禦）
於多個層之系統化防禦。指令層級被執行。工具權限定義。定期紅隊測試。
層級 4：受管（已量測並監控）
防禦有效性量化量測。具警報之持續監控。對偵測之攻擊之自動化回應。對新攻擊技術之定期防禦評估。
層級 5：最佳化（適配與預期）
防禦適配新興威脅。新穎攻擊類別之主動紅隊。縱深防禦配無單一失效點。基於威脅情報之持續改善。

選擇防禦組合

無單一防禦充足。有效保護需選擇互補防禦：

最小可行防禦堆疊

為任何生產 AI 部署：

輸入：指令層級 + 基礎輸入驗證
輸出：內容安全分類器 + PII 偵測
應用：速率限制 + 稽核記錄
治理：事件回應計畫 + 負責任使用政策

增強防禦堆疊

為高風險部署（財務、醫療、政府）：

以上所有，加上：

架構：工具允許清單 + 沙箱化執行 + 脈絡隔離
訓練：對抗訓練 + 紅隊資料增強
推論：提示盾 + SmoothLLM + 啟動監控
應用：工具呼叫核准工作流程 + 會話限制
治理：定期紅隊評估 + 漏洞賞金

參考資料

OWASP, "Top 10 for Large Language Model Applications"（2024）
NIST, "AI Risk Management Framework"（2023）
MITRE, "ATLAS: Adversarial Threat Landscape for AI Systems"（2023）
Microsoft, "AI Red Team Lessons Learned"（2023）

AI 防禦分類

入門5 分鐘閱讀更新於 2026-03-15

所有 AI 防禦途徑按層、方法與有效性組織之完整分類，提供評估防禦策略之結構化框架。

defense taxonomy categorization framework security-layers

AI 防禦分類

分類概觀

AI 防禦於六個不同層運作，自最外（網路周邊）至最內（模型權重）：

Defense Layers (outer to inner):

Layer 6: Governance & Policy
  └── Responsible use policies, legal frameworks, incident response

Layer 5: Application
  └── Rate limiting, access control, audit logging, API design

Layer 4: Output
  └── Content filtering, PII detection, response validation

Layer 3: Inference
  └── Input sanitization, prompt shields, instruction hierarchy

Layer 2: Training
  └── Safety alignment, adversarial training, data curation

Layer 1: Architecture
  └── Model design, capability restrictions, isolation boundaries

層 1：架構防禦

建入基本系統設計之防禦。

能力限制

防禦	描述	有效性
工具允許清單	明確列舉允許之工具呼叫	對工具濫用高
沙箱化執行	於隔離環境執行代理動作	對系統受損高
能力分離	將讀取／寫入／執行分至不同模型	對特權升級中高
脈絡隔離	於架構層級防止跨租戶資料存取	對資料洩漏高

模型設計選擇

防禦	描述	有效性
為敏感任務之較小模型	使用具較少能力之特殊化、較小模型	對廣泛攻擊中
分離之安全分類器	獨立於生成之安全評估專用模型	對已知攻擊類型中高
雙模型驗證	於執行動作前兩個獨立模型須同意	高但昂貴
檢索分離	以安全邊界分離檢索與生成階段	對 RAG 投毒中

層 2：訓練時防禦

於模型訓練期間套用之防禦以建立固有穩健度。

安全對齊方法

方法	描述	優勢	弱點
RLHF	於人類對安全之偏好上訓練獎勵模型	良好研究、對常見案例有效	獎勵駭入、分布轉移
DPO	無獎勵模型之直接偏好最佳化	較簡單、較少失敗模式	較 RLHF 不靈活
憲法 AI	模型對原則自我評估	可擴展、一致	取決於原則完整性
紅隊資料增強	於訓練含已知攻擊	直接處理已知威脅	無法涵蓋新穎攻擊

資料層級防禦

方法	描述	有效性
資料策展	訓練資料之仔細選擇與過濾	必要基礎
去重	移除重複與近重複之訓練樣本	降低記憶化風險
差分隱私	於訓練加入雜訊以限制個別樣本影響	可證保證但效用成本
浮水印偵測	自訓練資料偵測並過濾 AI 生成內容	中等、演化之軍備競賽

層 3：推論時防禦

於模型推論期間運作於輸入與輸出間之防禦。

輸入處理

防禦	描述	對抗
指令層級	執行系統 > 使用者 > 脈絡優先度	提示注入
提示盾	偵測注入嘗試之 ML 分類器	提示注入
輸入淨化	移除特殊字元、正規化編碼	Tokenizer 攻擊
困惑度過濾	拒絕具異常高困惑度之輸入	對抗後綴
輸入長度限制	每來源限制最大輸入長度	脈絡視窗攻擊

推論修改

防禦	描述	對抗
SmoothLLM	為穩健度之隨機輸入擾動	對抗後綴
啟動監控	監控隱藏狀態啟動以偵測異常	啟動引導
注意力模式檢查	驗證正常注意力分布	脈絡操弄
溫度控制	限制取樣參數	輸出操弄

層 4：輸出防禦

於遞送前處理模型輸出之防禦。

防禦	描述	對抗
內容安全分類器	分類輸出安全之 ML 模型	有害內容生成
PII 偵測與編輯	掃描輸出尋找個人資訊	資料外洩
URL／網域允許清單	僅允許對核可網域之參照	經 AI 之網釣
回應一致性檢查	驗證輸出與預期行為對齊	異常行為
輸出格式驗證	確保回應匹配預期結構	格式操弄
浮水印	於輸出嵌入可偵測訊號	來源追蹤

層 5：應用防禦

於 AI 模型周圍之應用層之防禦。

防禦	描述	對抗
速率限制	每使用者／會話限制請求量	自動化攻擊、提取
身分驗證與授權	驗證使用者身分與權限	未授權存取
稽核記錄	記錄所有互動供審查	事件後分析
工具呼叫核准	為敏感動作需人類核准	工具濫用
會話管理	限制對話長度、執行重置	脈絡累積攻擊
為安全之 A/B 測試	比較模型版本尋找安全回歸	部署安全

層 6：治理與政策

框架整體安全態勢之非技術防禦。

防禦	描述	對抗
負責任使用政策	定義可接受使用與後果	由授權使用者誤用
事件回應計畫	為處理安全事件之程序	所有攻擊類型（回應）
漏洞賞金／紅隊	激勵外部安全測試	未知漏洞
模型卡與文件	記錄模型能力與限制	對能力之誤解
法規合規	與 AI 安全法規對齊	法律與合規風險

防禦有效性矩陣

將防禦映射至攻擊類型揭示涵蓋與缺口：

攻擊類型	最有效之防禦	有限防禦	無效防禦
直接提示注入	指令層級、提示盾	輸出過濾	速率限制
間接提示注入	每來源輸入淨化、脈絡隔離	內容分類器	身分驗證
對抗後綴	困惑度過濾、SmoothLLM	輸出過濾	輸入長度限制
語意注入	意圖分類器、雙模型驗證	關鍵字過濾器	所有語法防禦
資料投毒	資料策展、差分隱私	模型監控	輸出過濾
模型提取	速率限制、浮水印	API 設計	輸入淨化
工具濫用	工具允許清單、核准工作流程	輸出過濾	提示盾
RAG 投毒	內容驗證、來源身分驗證	輸出過濾	速率限制

防禦成熟度模型

組織可跨這些層級評估其防禦成熟度：

層級 1：臨時（無系統化防禦）
無正式 AI 安全控制。模型僅以預設安全訓練部署。對事件反應性回應。
層級 2：基礎（輸入／輸出過濾）
於輸入與輸出之內容安全分類器。基礎速率限制。某些記錄就位。
層級 3：結構化（多層防禦）
於多個層之系統化防禦。指令層級被執行。工具權限定義。定期紅隊測試。
層級 4：受管（已量測並監控）
防禦有效性量化量測。具警報之持續監控。對偵測之攻擊之自動化回應。對新攻擊技術之定期防禦評估。
層級 5：最佳化（適配與預期）
防禦適配新興威脅。新穎攻擊類別之主動紅隊。縱深防禦配無單一失效點。基於威脅情報之持續改善。

選擇防禦組合

無單一防禦充足。有效保護需選擇互補防禦：

最小可行防禦堆疊

為任何生產 AI 部署：

輸入：指令層級 + 基礎輸入驗證
輸出：內容安全分類器 + PII 偵測
應用：速率限制 + 稽核記錄
治理：事件回應計畫 + 負責任使用政策

增強防禦堆疊

為高風險部署（財務、醫療、政府）：

以上所有，加上：

架構：工具允許清單 + 沙箱化執行 + 脈絡隔離
訓練：對抗訓練 + 紅隊資料增強
推論：提示盾 + SmoothLLM + 啟動監控
應用：工具呼叫核准工作流程 + 會話限制
治理：定期紅隊評估 + 漏洞賞金

參考資料

OWASP, "Top 10 for Large Language Model Applications"（2024）
NIST, "AI Risk Management Framework"（2023）
MITRE, "ATLAS: Adversarial Threat Landscape for AI Systems"（2023）
Microsoft, "AI Red Team Lessons Learned"（2023）

AI 防禦分類

層級 1：臨時（無系統化防禦）

層級 2：基礎（輸入／輸出過濾）

層級 3：結構化（多層防禦）

層級 4：受管（已量測並監控）

層級 5：最佳化（適配與預期）

相關文章

AI 防禦分類

層級 1：臨時（無系統化防禦）

層級 2：基礎（輸入／輸出過濾）

層級 3：結構化（多層防禦）

層級 4：受管（已量測並監控）

層級 5：最佳化（適配與預期）

相關文章