理解 AI 防禦
為何紅隊員必須理解他們所面對的防禦、AI 防禦類別,以及 AI 安全中攻擊者與防禦者的不對稱。
不理解防禦的紅隊演練就像不懂鎖的運作方式卻要撬鎖。每一次有效的攻擊都是由它必須繞過的防禦所形塑。本頁提供從攻擊者視角思考 AI 防禦的基礎心理模型。
為何紅隊員必須研讀防禦
每位紅隊員都需深入防禦知識的三個實務理由:
- 目標特徵化 ——打造載荷前,您需辨識部署了哪些防禦。正規表達式過濾器需要的繞過技術與 ML 分類器不同。
- 高效利用 ——理解防禦架構揭示哪些層該鎖定、哪些該避免觸發。
- 可信的報告 ——客戶期待在發現之外一併收到修復建議。您無法為不理解的系統建議修補。
防禦類別概覽
AI 防禦運作於請求-回應管線的不同階段。理解每種防禦所處位置,就能知道它何時、如何可被繞過。
| 類別 | 運作位置 | 作用 | 範例 |
|---|---|---|---|
| 對齊訓練 | 模型權重 | 教模型拒答有害請求 | RLHF、憲法式 AI、DPO |
| 輸入過濾 | 模型之前 | 封鎖或修改危險輸入 | 正規表達式規則、ML 分類器、提示詞盾牌 |
| 系統提示詞設計 | 提示詞層 | 透過指令約束模型行為 | 角色定義、邊界指令 |
| 輸出過濾 | 模型之後 | 封鎖或修改危險輸出 | 內容分類器、關鍵字封鎖清單 |
| 監控 | 可觀測性層 | 跨時間偵測異常模式 | 符元異常偵測、行為漂移警示 |
| 架構控制 | 基礎設施 | 限制模型能做的事 | 沙箱、速率限制、工具核准閘 |
攻擊者—防禦者不對稱
AI 安全存在一項偏向攻擊者的根本不對稱,理解它形塑出真實的威脅模型。
為何攻擊者占優
防禦者必須涵蓋每條路徑;攻擊者只需一條。 護欄系統可能封鎖 99.9% 的惡意輸入,但若攻擊者找到一個繞過,該次互動的防禦就已失敗。
自然語言是無邊界的。 不像傳統軟體輸入有定義的類型與範圍,大型語言模型輸入是自由形式的文字。可能攻擊的空間實際上無窮大,使窮盡式過濾不可能。
模型是機率性的。 相同輸入可能在不同執行中產生不同輸出。95% 時間封鎖攻擊的防禦,仍每 20 次中失敗 1 次——而攻擊者可廉價重試。
防禦會降低模型效用。 每個過濾器與約束都冒著封鎖合法用例的風險。防禦者面對持續降低誤判的壓力,這正是攻擊者可利用的落差。
防禦者的優勢
不對稱並非完全單向:
- 防禦者看得見所有流量 ——他們可跨數千個請求偵測模式,而非僅單一請求
- 防禦者控制架構 ——他們挑選可用的模型、工具與權限
- 攻擊者面對偵測風險 ——自動化監控可標示並封鎖重複犯罪者
- 防禦層會複合 ——即使不完美的層組合起來,也會建立指數級更難的繞過挑戰
防禦 vs. 安全:關鍵區別
兩個不同但相關的概念常被混淆:
| 概念 | 意義 | 紅隊意涵 |
|---|---|---|
| 安全性(對齊) | 模型經訓練而傾向拒答有害請求的特性 | 透過越獄、激活引導、微調繞過 |
| 防禦(護欄) | 過濾、監控或約束模型的外部系統 | 透過規避、編碼、架構利用繞過 |
模型可以「對齊良好但防禦薄弱」(無輸入過濾、無監控),或「重度防禦但對齊薄弱」(強護欄遮蓋了一個在護欄被繞過時會熱切服從有害請求的模型)。
將防禦對應到攻擊階段
| 攻擊階段 | 相關防禦 | 測試什麼 |
|---|---|---|
| 偵察 | 速率限制、請求記錄 | 您能否列舉系統行為而不觸發警示? |
| 輸入打造 | 輸入過濾器、提示詞盾牌 | 輸入是否未被修改即抵達模型? |
| 提示詞注入 | 系統提示詞強化、指令階層 | 您能否覆寫系統提示詞? |
| 越獄 | 對齊訓練、安全微調 | 您能否使模型遵從受限請求? |
| 資料萃取 | 輸出過濾器、PII 偵測 | 敏感資料能否通過輸出過濾器? |
| 工具利用 | 沙箱、核准閘、權限範圍 | 您能否存取非預期工具或提升權限? |
| 持久性 | 工作階段管理、監控 | 您能否跨工作階段維持存取而不被偵測? |
接下來去哪
本概覽提供地圖。後續頁面填入細節:
- The AI Defense Landscape——深入探討每個防禦類別、工具與市場概覽
- Thinking Like a Defender——使您成為更優秀攻擊者的心理模型與風險框架
- 護欄與安全層架構 ——護欄系統如何設計與在何處失效
相關主題
- The AI Defense Landscape - 防禦工具、供應商與部署模式的完整概覽
- Thinking Like a Defender - 理解防禦者優先順序的心理模型與風險框架
- 護欄與安全層架構 - 護欄系統如何設計與在何處失效
- AI 威脅模型 - AI 系統的存取層級與威脅建模框架
參考文獻
- "OWASP Top 10 for LLM Applications" - OWASP (2025) ——大型語言模型應用安全風險的業界標準分類,用作防禦類別的參考分類
- "NIST AI Risk Management Framework (AI RMF 1.0)" - NIST (2023) ——包含 AI 安全中攻擊者—防禦者不對稱的聯邦級 AI 風險管理框架
- "Lessons Learned from AI Red Teaming" - Microsoft (2024) ——關於防禦姿態與紅隊發現之間關係的實務洞見
- "Securing LLM-Integrated Applications" - Microsoft Security (2024) ——防禦層的指引,以及對齊型與執行時防禦的區別
為何 AI 安全中的攻擊者—防禦者不對稱通常偏向攻擊者?