建構生產 AI 防禦堆疊
如何為生產部署建構分層 AI 防禦堆疊——涵蓋輸入過濾、輸出監控、護欄、異常偵測與事件應變整合。
花了多年攻擊 AI 系統後,什麼防禦有效的模式已變得清楚。沒有單一控制能阻擋每個攻擊。但設計良好的分層防禦堆疊使利用顯著更困難,偵測顯著更快。本文描述如何為生產 AI 部署建構該堆疊,取自對數十個組織紅隊評估的經驗。
AI 的縱深防禦模型
對 AI 系統,防禦層為:
- 輸入過濾 — 在惡意輸入到達模型前捕捉
- 系統提示詞強化 — 使模型指令對覆蓋具韌性
- 模型層級安全 — 模型自身的安全訓練與對齊
- 輸出過濾 — 在問題輸出到達使用者前捕捉
- 工具與動作控制 — 限制模型能做什麼
- 監控與偵測 — 識別繞過預防性控制的攻擊
- 事件應變 — 攻擊成功時快速回應
每一層捕捉滑過其上層的攻擊。目標不是任何單一層的完美,而是跨所有層的累積有效性。
第 1 層:輸入過濾
基於分類的過濾
最有效的輸入過濾器使用獨立分類器評估傳入訊息的注入指標。此分類器應獨立於主模型運作。商業選項包含 Lakera Guard、Rebuff 與 Protect AI。開源替代方案包含在注入資料集上訓練的 DistilBERT 或 DeBERTa 微調版本。
基於規則的過濾
規則式過濾器捕捉已知模式:關鍵字比對常見注入模式、分隔符操控的結構模式偵測、Base64 或十六進位字串的編碼注入。規則式過濾快速且確定性,但脆弱——作為分類的補充使用。
輸入清理
清理修改輸入使其安全而非直接封鎖:剝除或轉義特殊字元、正規化 Unicode 以防止同形字攻擊、截斷輸入以防止上下文視窗淹沒、移除不可見字元。
第 2 層:系統提示詞強化
將最關鍵指令置於系統提示詞開頭與結尾。以不同措辭重複關鍵安全指令。包含關於處理衝突指令的明確陳述。明確建立指令優先順序:系統提示詞指令最高優先,使用者訊息第三優先,檢索上下文最低優先。
第 3 層:模型層級安全
主要供應商的當代模型包含廣泛安全訓練。此訓練對不精密攻擊有效但可被越獄技術繞過。選擇安全敏感應用程式的模型時,將模型安全特性納入選擇標準。
第 4 層:輸出過濾
內容分類
在傳回使用者前對模型輸出應用內容分類器:檢查繞過安全訓練的有害內容、不應揭露的個人資訊或憑證、系統提示詞內容,以及違反應用程式特定政策的內容。
結構化輸出驗證
對產生結構化輸出的應用程式,在執行前驗證輸出結構與內容。對代理式系統特別重要——在執行前對照預期架構驗證工具呼叫引數。
PII 與敏感資料偵測
對模型輸出應用 PII 偵測以捕捉意外資料洩漏。
第 5 層:工具與動作控制
最小權限工具存取
僅授予代理其特定用途所需的工具存取。定期稽核工具存取並移除不活躍需要的工具。
引數驗證
在執行前驗證每個工具呼叫引數。定義預期引數類型、範圍與格式的架構。
人類介入控制
對高影響動作在執行前要求人類核准。設計清楚顯示要採取動作與涉及資料的核准介面。
速率限制與配額
對工具呼叫實作速率限制以防止拒絕服務與成本放大攻擊。
第 6 層:監控與偵測
要監控什麼
有效 AI 監控涵蓋:輸入模式(注入嘗試頻率、編碼使用)、輸出模式(安全拒絕率、輸出長度分布)、工具使用(呼叫頻率、引數模式)、效能指標(延遲、符元使用、每次互動成本)、使用者行為(會話模式、請求模式)。
異常偵測
在正常運作期間建立每個指標的基準,然後對顯著偏差發出警報。
與 SIEM 整合
將 AI 監控資料饋入既有 SIEM,以將 AI 安全事件與更廣安全脈絡關聯。
第 7 層:事件應變
AI 特定事件應變
模型行為是機率性的,所以重現事件可能需要以相同輸入多次嘗試。攻擊證據可能僅存在於模型輸入/輸出日誌。修復可能需要模型回滾、重新訓練或設定變更。
劇本開發
為常見 AI 攻擊情境開發事件應變劇本,指定:即時遏制動作、調查程序、修復步驟,以及溝通程序。
實作優先順序
建議實作順序:先 日誌與監控(你無法防禦你看不見的),再 輸入過濾,然後 系統提示詞 強化,加入 輸出過濾,實作 工具控制,開發 事件應變 劇本,最後基於紅隊測試持續改進所有層。
此順序優先考量可見性與偵測而非預防,因為可見性更容易實作且更廣泛有價值。
衡量有效性
透過定期紅隊評估衡量防禦堆疊有效性。追蹤每層封鎖攻擊的百分比、從攻擊開始到偵測的時間、從偵測到遏制的時間,以及到達使用者的成功攻擊總數。
建構生產 AI 防禦堆疊不是專案——而是計畫。威脅版圖持續演變,防禦堆疊必須隨之演變。