以防禦者視角思考
防禦思維的心智模型、風險評估框架、防禦取捨,以及為何理解防禦者視角能使你成為更好的紅隊。
最優秀的紅隊不只像攻擊者思考——他們也像試圖擊敗的防禦者思考。理解防禦者如何排序、他們在何種限制下運作,以及他們心智模型的盲點所在,這正是將機會主義測試與戰略性攻擊區分開來的關鍵。
防禦者的限制
防禦者受限於攻擊者不受的約束。這些約束製造系統性盲點:
| 限制 | 對防禦的影響 | 攻擊者機會 |
|---|---|---|
| 預算 | 無法部署所有工具;必須排序 | 未被鎖定之面向缺乏防禦 |
| 延遲 | 重度過濾增加回應時間;使用者抱怨 | 即時過濾必須快速,限制了複雜度 |
| 偽陽性率 | 封鎖合法使用者代價高昂 | 防禦者放寬過濾,製造空隙 |
| 維護負擔 | 規則需隨攻擊演進而更新 | 過時規則錯失新技術 |
| 使用者體驗 | 過度限制將使用者趕向競爭對手 | 業務壓力使過濾保持寬鬆 |
| 可觀測性 | 無法即時檢視一切 | 低速慢動攻擊可規避偵測 |
風險評估框架
防禦者使用結構化框架決定保護什麼、投資多少。理解這些框架可告訴你他們視為高優先(防禦完善)與低優先(較弱防禦)者為何。
AI 風險矩陣
防禦者通常沿兩軸評估威脅:
| 低可能性 | 高可能性 | |
|---|---|---|
| 高影響 | 進階攻擊(activation steering、模型擷取)——若已知則有防禦,常被忽視 | 常見 jailbreak、提示注入——主要防禦投資 |
| 低影響 | 邊緣情況、新奇攻擊——鮮少防禦 | 垃圾訊息、低品質濫用——自動化防禦 |
紅隊洞察: 最高價值的發現位於「高影響、低可能性」象限。這些是防禦者理論上知道、但因看來不太可能發生而未加以排序之攻擊。證明其具可行性會改變風險計算。
針對 AI 系統的 STRIDE
改寫自傳統威脅塑模:
| 威脅 | AI 展現 | 典型防禦優先度 |
|---|---|---|
| Spoofing(冒充) | 冒充系統提示之權威 | 中 |
| Tampering(竄改) | 修改模型輸入/上下文 | 高 |
| Repudiation(否認) | 模型動作缺乏稽核紀錄 | 低 |
| Information Disclosure(資訊揭露) | 系統提示洩漏、訓練資料擷取 | 中高 |
| Denial of Service(拒絕服務) | Token 耗盡、上下文視窗灌滿 | 中 |
| Elevation of Privilege(權限提升) | 提示注入取得工具存取 | 高 |
偽陽性/偽陰性取捨
這是 AI 防禦中的核心張力。每個過濾器皆有偵測門檻,朝任一方向移動皆有代價:
較嚴格(較低門檻) 較寬鬆(較高門檻)
←─────────────────────────────────────────────────────────────────────→
擋下更多攻擊 錯過更多攻擊
封鎖更多合法使用者 更佳使用者體驗
較高偽陽性率 較高偽陰性率
使用者抱怨、業務反彈 攻擊成功、安全團隊擔憂
利用此取捨
防禦者通常將過濾器調校至偽陽性率低於 1%。這表示:
- 邊界輸入會通過 —— 看起來 51% 像善意的 payload 會滑過為低 FP 調校之過濾器
- 類別邊界鬆軟 —— 於類別之間曖昧(教育 vs. 有害、虛構 vs. 指示性)之內容會穿過
- 門檻因類別而異 —— 高風險類別(CSAM、暴力)具嚴格門檻;較低風險類別(輕微髒話、有爭議觀點)較寬鬆
防禦者如何排序
理解防禦者優先度可告訴你防禦何處強、何處弱:
優先 1:合規與法律風險
受監管之內容類別(CSAM、恐怖主義、受監管建議)獲得最多防禦投資,因為失敗有法律後果。這些是最難繞過的類別。
優先 2:品牌與聲譽風險
若截圖分享於社群媒體將使組織難堪之內容。覆蓋率差異很大——防禦者防範明顯情況,但錯失細微或依脈絡而定者。
優先 3:濫用啟動
防止模型協助有害活動(武器、惡意程式、詐騙)。覆蓋率不一致,因為教育性與啟動性內容之間的界線是主觀的。
優先 4:資料保護
防止訓練資料、系統提示或使用者資料洩漏。常投資不足,因為風險感覺不如內容生成風險那麼立即。
改善紅隊的心智模型
「我會防禦什麼?」練習
測試系統前問自己:若你是防禦者,會最先保護什麼?會略過什麼?你會略過的事物很可能缺乏防禦。
「防禦債」模型
類似技術債,組織累積防禦債——已知且未處置的缺口。常見來源:
- 功能快速開發超過安全審查的速度
- 新增模態(圖像、音訊)未配套相應過濾
- 繞過主輸入管線之工具整合
- 具較舊(或無)過濾的舊端點
「上次稽核」啟發法
防禦隨時間而退化,攻擊技術持續演進。越久未更新的防禦,越可能具已知繞過。於範圍界定時問:AI 元件的上次安全審查是何時?
撰寫引起共鳴的發現
理解防禦者視角也使你的紅隊報告更可付諸行動:
以業務風險措辭描述發現
不是「我繞過了輸入過濾」,而是「攻擊者可使模型生成違反 [具體合規要求] 之內容,造成法律曝險」。
承認防禦之複雜性
展現你理解取捨。建議具體門檻調整,而非模糊的「改善過濾」。
提供可重現測試案例
防禦者需驗證修復。納入確切 payload、預期 vs. 實際行為,以及跨多次嘗試的繞過率。
對映其既有框架
若他們使用 OWASP LLM Top 10,將你的發現對映到這些類別。以他們的語言溝通。
延伸閱讀
相關主題
- 理解 AI 防禦 - 防禦類別與攻守不對稱
- AI 防禦景觀 - 各防禦類別的工具與供應商
- 紅隊發現到修復 - 將攻擊面發現翻譯為防禦建議
- AI 威脅模型 - AI 系統的結構化威脅塑模框架
- LLM 應用之縱深防禦 - 分層防禦策略及缺口出現之處
參考資料
- "OWASP Top 10 for LLM Applications" - OWASP(2025)- 防禦者用以排序的業界標準風險框架;紅隊必須理解
- "NIST AI Risk Management Framework (AI RMF 1.0)" - NIST(2023)- 企業防禦者評估 AI 系統威脅所用之風險評估框架
- "The Precision-Recall Trade-off in Machine Learning" - Saito & Rehmsmeier(2015)- 分類門檻取捨之奠基工作,直接套用於內容過濾器調校
- "Threat Modeling: Designing for Security" - Shostack, Adam(2014)- 於本頁風險評估段落改寫為 AI 之 STRIDE 框架
防禦者將內容過濾器調校至 0.5% 偽陽性率。作為紅隊,此資訊應如何引導你的 payload 設計?