LLM 應用的縱深防禦
為正式 LLM 應用實作分層防禦架構。
概覽
為正式 LLM 應用實作分層防禦架構。
此主題對理解當前 AI 安全景觀至關重要。NIST AI RMF (風險管理框架) 為本文探索的概念提供基礎脈絡。
核心概念
基本原則
此主題的安全意涵源於現代語言模型設計、訓練與部署方式的基本屬性,反映 transformer 架構必須整體理解的系統性特徵。在架構層面,模型透過相同機制處理所有輸入符元,不論來源或權限。系統提示詞、使用者輸入、工具輸出、檢索文件皆競爭注意力。安全邊界必須外部執行,因模型對信任等級無原生概念。
縱深防禦的核心原則是 無單一防禦層足夠——攻擊者終會找到繞過任何單一防禦的方法。因此應部署多個互補層,使攻擊者必須同時擊敗全部:(1) 網路/基礎設施層 (WAF、速率限制、mTLS);(2) 應用層 (認證、授權、會話管理);(3) 輸入驗證層 (schema 驗證、分類器);(4) 提示詞層 (系統提示詞強化、指令階層);(5) 模型層 (安全訓練、憲法式 AI);(6) 輸出層 (分類器、PII 遮罩、格式驗證);(7) 監控層 (日誌、異常偵測、警報)。
技術深入
每層應獨立於其他層運作,使一層的入侵不危及整體系統。典型部署示範:LayeredDefense 類別含 network_layer、auth_layer、input_layer、model_layer、output_layer、monitor_layer,process_request(request) 依序通過每層,任一層拒絕即以結構化錯誤返回並記錄事件。
攻擊面分析
| 攻擊向量 | 單一防禦阻擋率 | 縱深防禦阻擋率 |
|---|---|---|
| 直接注入 | 70-85% | 95-99% |
| 間接注入 | 50-70% | 85-95% |
| 函式呼叫濫用 | 60-80% | 90-97% |
| 記憶體操縱 | 40-60% | 80-92% |
| 上下文操縱 | 30-50% | 70-88% |
實務應用
實作方法
設計縱深防禦系統步驟:(1) 威脅建模——列舉攻擊向量與資產;(2) 層級對應——每層對應其緩解的威脅;(3) 獨立性驗證——確認失敗模式不相關;(4) 效能預算——配置延遲預算至各層;(5) 監控整合——跨層遙測。
防禦考量
- 輸入驗證:schema 驗證、大小上限、編碼偵測
- 輸出過濾:PII 遮罩、有害內容分類、格式強制
- 行為監控:異常樣式偵測、速率異常、主題漂移
- 架構設計:最小權限、工具沙箱化、記憶體隔離
現實關聯性
NIST AI RMF 明確建議縱深防禦作為高風險 AI 系統的基礎。EU AI Act 對高風險系統要求多重獨立安全控制。金融、醫療、法律等受監管產業將縱深防禦視為強制要求。
目前研究
積極方向:(1) 層間獨立性的正規驗證;(2) 各層對抗韌性研究;(3) 層間資訊共享 (威脅情報) 而不喪失獨立性;(4) 標準化縱深防禦基準。
實作考量
架構樣式
閘道樣式:集中安全控制於閘道,但形成單點失效。 Sidecar 樣式:每組件配一個安全 sidecar,提供更好隔離。 Mesh 樣式:每個代理具自身邊界,代理間零信任。
效能意涵
縱深防禦增加延遲。典型完整管線 100-500ms。最佳化:並行執行互不依賴層、提早終止 (任一層拒絕即停止)、快取重複檢查結果。
監控與可觀測性
每層獨立發送遙測,中央 SIEM 關聯。SecurityMetrics 追蹤逐層阻擋率、偽陽性率、延遲分布。
CI/CD 中的安全測試
(1) 單元測試各層獨立組件;(2) 整合測試完整管線;(3) 回歸測試歷史攻擊載荷;(4) 對抗測試定期以自動化紅隊工具。
新興趨勢
- LLM 行為的正規驗證
- 大規模對抗訓練
- 可解釋性導向防禦
- 多代理安全
- 大規模自動化紅隊演練 (Garak、PyRIT、Inspect)
進階考量
跨領域安全原則
- 縱深防禦
- 假設已入侵
- 最小權限
- 持續測試
- 預設安全
與組織安全整合
AI 安全必須與組織身分存取、資料保護、應用程式安全、事件回應、合規、供應鏈等整合。
參考資料與延伸閱讀
- NIST AI RMF (Risk Management Framework)
- OWASP LLM Top 10 2025 版
- MITRE ATLAS
縱深防禦的關鍵特性為何?