What is Defense Landscape?

Comprehensive overview of AI defense categories including input filtering, output filtering, guardrails, alignment training, and monitoring -- plus the tools and vendors in each space.

What is Thinking Like a Defender?

Mental models for defensive thinking, risk assessment frameworks, defense tradeoffs, and why understanding the defender's perspective makes you a better red teamer.

What is AI Defense Taxonomy?

A comprehensive categorization of all AI defense approaches organized by layer, method, and effectiveness, providing a structured framework for evaluating defense strategies.

What is Red Team vs Blue Team Asymmetry?

Why attacking AI systems is fundamentally easier than defending them: asymmetric advantages, defender's dilemma, and strategies for closing the gap.

What is Evaluating Defense Effectiveness?

Metrics, benchmarks, and methodology for measuring how well AI defenses work against real attacks, including evaluation pitfalls and best practices.

What is Layered Defense Strategy?

Implementing defense in depth for AI applications: designing independent defense layers, ensuring orthogonal coverage, and managing the complexity of multi-layer security.

What is Defense Economics?

Cost-benefit analysis of AI security investments: quantifying risk, calculating defense ROI, budget allocation strategies, and the economics of AI red teaming.

理解 AI 防禦

入門2 分鐘閱讀更新於 2026-03-13

為何紅隊員必須理解他們所面對的防禦、AI 防禦類別，以及 AI 安全中攻擊者與防禦者的不對稱。

defenses red-teaming security-fundamentals attacker-defender-asymmetry

不理解防禦的紅隊演練就像不懂鎖的運作方式卻要撬鎖。每一次有效的攻擊都是由它必須繞過的防禦所形塑。本頁提供從攻擊者視角思考 AI 防禦的基礎心理模型。

為何紅隊員必須研讀防禦

每位紅隊員都需深入防禦知識的三個實務理由：

目標特徵化 ——打造載荷前，您需辨識部署了哪些防禦。正規表達式過濾器需要的繞過技術與 ML 分類器不同。
高效利用 ——理解防禦架構揭示哪些層該鎖定、哪些該避免觸發。
可信的報告 ——客戶期待在發現之外一併收到修復建議。您無法為不理解的系統建議修補。

防禦類別概覽

AI 防禦運作於請求-回應管線的不同階段。理解每種防禦所處位置，就能知道它何時、如何可被繞過。

類別	運作位置	作用	範例
對齊訓練	模型權重	教模型拒答有害請求	RLHF、憲法式 AI、DPO
輸入過濾	模型之前	封鎖或修改危險輸入	正規表達式規則、ML 分類器、提示詞盾牌
系統提示詞設計	提示詞層	透過指令約束模型行為	角色定義、邊界指令
輸出過濾	模型之後	封鎖或修改危險輸出	內容分類器、關鍵字封鎖清單
監控	可觀測性層	跨時間偵測異常模式	符元異常偵測、行為漂移警示
架構控制	基礎設施	限制模型能做的事	沙箱、速率限制、工具核准閘

攻擊者—防禦者不對稱

AI 安全存在一項偏向攻擊者的根本不對稱，理解它形塑出真實的威脅模型。

為何攻擊者占優

防禦者必須涵蓋每條路徑；攻擊者只需一條。 護欄系統可能封鎖 99.9% 的惡意輸入，但若攻擊者找到一個繞過，該次互動的防禦就已失敗。

自然語言是無邊界的。 不像傳統軟體輸入有定義的類型與範圍，大型語言模型輸入是自由形式的文字。可能攻擊的空間實際上無窮大，使窮盡式過濾不可能。

模型是機率性的。 相同輸入可能在不同執行中產生不同輸出。95% 時間封鎖攻擊的防禦，仍每 20 次中失敗 1 次——而攻擊者可廉價重試。

防禦會降低模型效用。 每個過濾器與約束都冒著封鎖合法用例的風險。防禦者面對持續降低誤判的壓力，這正是攻擊者可利用的落差。

防禦者的優勢

不對稱並非完全單向：

防禦者看得見所有流量 ——他們可跨數千個請求偵測模式，而非僅單一請求
防禦者控制架構 ——他們挑選可用的模型、工具與權限
攻擊者面對偵測風險 ——自動化監控可標示並封鎖重複犯罪者
防禦層會複合 ——即使不完美的層組合起來，也會建立指數級更難的繞過挑戰

防禦 vs. 安全：關鍵區別

兩個不同但相關的概念常被混淆：

概念	意義	紅隊意涵
安全性（對齊）	模型經訓練而傾向拒答有害請求的特性	透過越獄、激活引導、微調繞過
防禦（護欄）	過濾、監控或約束模型的外部系統	透過規避、編碼、架構利用繞過

模型可以「對齊良好但防禦薄弱」（無輸入過濾、無監控），或「重度防禦但對齊薄弱」（強護欄遮蓋了一個在護欄被繞過時會熱切服從有害請求的模型）。

將防禦對應到攻擊階段

攻擊階段	相關防禦	測試什麼
偵察	速率限制、請求記錄	您能否列舉系統行為而不觸發警示？
輸入打造	輸入過濾器、提示詞盾牌	輸入是否未被修改即抵達模型？
提示詞注入	系統提示詞強化、指令階層	您能否覆寫系統提示詞？
越獄	對齊訓練、安全微調	您能否使模型遵從受限請求？
資料萃取	輸出過濾器、PII 偵測	敏感資料能否通過輸出過濾器？
工具利用	沙箱、核准閘、權限範圍	您能否存取非預期工具或提升權限？
持久性	工作階段管理、監控	您能否跨工作階段維持存取而不被偵測？

接下來去哪

本概覽提供地圖。後續頁面填入細節：

The AI Defense Landscape——深入探討每個防禦類別、工具與市場概覽
Thinking Like a Defender——使您成為更優秀攻擊者的心理模型與風險框架
護欄與安全層架構 ——護欄系統如何設計與在何處失效

參考文獻

"OWASP Top 10 for LLM Applications" - OWASP (2025) ——大型語言模型應用安全風險的業界標準分類，用作防禦類別的參考分類
"NIST AI Risk Management Framework (AI RMF 1.0)" - NIST (2023) ——包含 AI 安全中攻擊者—防禦者不對稱的聯邦級 AI 風險管理框架
"Lessons Learned from AI Red Teaming" - Microsoft (2024) ——關於防禦姿態與紅隊發現之間關係的實務洞見
"Securing LLM-Integrated Applications" - Microsoft Security (2024) ——防禦層的指引，以及對齊型與執行時防禦的區別

Knowledge Check

為何 AI 安全中的攻擊者—防禦者不對稱通常偏向攻擊者？

理解 AI 防禦

入門2 分鐘閱讀更新於 2026-03-13

為何紅隊員必須理解他們所面對的防禦、AI 防禦類別，以及 AI 安全中攻擊者與防禦者的不對稱。

defenses red-teaming security-fundamentals attacker-defender-asymmetry

為何紅隊員必須研讀防禦

每位紅隊員都需深入防禦知識的三個實務理由：

目標特徵化 ——打造載荷前，您需辨識部署了哪些防禦。正規表達式過濾器需要的繞過技術與 ML 分類器不同。
高效利用 ——理解防禦架構揭示哪些層該鎖定、哪些該避免觸發。
可信的報告 ——客戶期待在發現之外一併收到修復建議。您無法為不理解的系統建議修補。

防禦類別概覽

AI 防禦運作於請求-回應管線的不同階段。理解每種防禦所處位置，就能知道它何時、如何可被繞過。

類別	運作位置	作用	範例
對齊訓練	模型權重	教模型拒答有害請求	RLHF、憲法式 AI、DPO
輸入過濾	模型之前	封鎖或修改危險輸入	正規表達式規則、ML 分類器、提示詞盾牌
系統提示詞設計	提示詞層	透過指令約束模型行為	角色定義、邊界指令
輸出過濾	模型之後	封鎖或修改危險輸出	內容分類器、關鍵字封鎖清單
監控	可觀測性層	跨時間偵測異常模式	符元異常偵測、行為漂移警示
架構控制	基礎設施	限制模型能做的事	沙箱、速率限制、工具核准閘

攻擊者—防禦者不對稱

AI 安全存在一項偏向攻擊者的根本不對稱，理解它形塑出真實的威脅模型。

為何攻擊者占優

防禦者必須涵蓋每條路徑；攻擊者只需一條。 護欄系統可能封鎖 99.9% 的惡意輸入，但若攻擊者找到一個繞過，該次互動的防禦就已失敗。

模型是機率性的。 相同輸入可能在不同執行中產生不同輸出。95% 時間封鎖攻擊的防禦，仍每 20 次中失敗 1 次——而攻擊者可廉價重試。

防禦會降低模型效用。 每個過濾器與約束都冒著封鎖合法用例的風險。防禦者面對持續降低誤判的壓力，這正是攻擊者可利用的落差。

防禦者的優勢

不對稱並非完全單向：

防禦者看得見所有流量 ——他們可跨數千個請求偵測模式，而非僅單一請求
防禦者控制架構 ——他們挑選可用的模型、工具與權限
攻擊者面對偵測風險 ——自動化監控可標示並封鎖重複犯罪者
防禦層會複合 ——即使不完美的層組合起來，也會建立指數級更難的繞過挑戰

防禦 vs. 安全：關鍵區別

兩個不同但相關的概念常被混淆：

概念	意義	紅隊意涵
安全性（對齊）	模型經訓練而傾向拒答有害請求的特性	透過越獄、激活引導、微調繞過
防禦（護欄）	過濾、監控或約束模型的外部系統	透過規避、編碼、架構利用繞過

將防禦對應到攻擊階段

攻擊階段	相關防禦	測試什麼
偵察	速率限制、請求記錄	您能否列舉系統行為而不觸發警示？
輸入打造	輸入過濾器、提示詞盾牌	輸入是否未被修改即抵達模型？
提示詞注入	系統提示詞強化、指令階層	您能否覆寫系統提示詞？
越獄	對齊訓練、安全微調	您能否使模型遵從受限請求？
資料萃取	輸出過濾器、PII 偵測	敏感資料能否通過輸出過濾器？
工具利用	沙箱、核准閘、權限範圍	您能否存取非預期工具或提升權限？
持久性	工作階段管理、監控	您能否跨工作階段維持存取而不被偵測？

接下來去哪

本概覽提供地圖。後續頁面填入細節：

The AI Defense Landscape——深入探討每個防禦類別、工具與市場概覽
Thinking Like a Defender——使您成為更優秀攻擊者的心理模型與風險框架
護欄與安全層架構 ——護欄系統如何設計與在何處失效

參考文獻

"OWASP Top 10 for LLM Applications" - OWASP (2025) ——大型語言模型應用安全風險的業界標準分類，用作防禦類別的參考分類
"NIST AI Risk Management Framework (AI RMF 1.0)" - NIST (2023) ——包含 AI 安全中攻擊者—防禦者不對稱的聯邦級 AI 風險管理框架
"Lessons Learned from AI Red Teaming" - Microsoft (2024) ——關於防禦姿態與紅隊發現之間關係的實務洞見
"Securing LLM-Integrated Applications" - Microsoft Security (2024) ——防禦層的指引，以及對齊型與執行時防禦的區別

Knowledge Check

為何 AI 安全中的攻擊者—防禦者不對稱通常偏向攻擊者？

理解 AI 防禦

為何紅隊員必須研讀防禦

防禦類別概覽

攻擊者—防禦者不對稱

為何攻擊者占優

防禦者的優勢

防禦 vs. 安全：關鍵區別

將防禦對應到攻擊階段

接下來去哪

相關主題

參考文獻

學習路徑

理解 AI 防禦

為何紅隊員必須研讀防禦

防禦類別概覽

攻擊者—防禦者不對稱

為何攻擊者占優

防禦者的優勢

防禦 vs. 安全：關鍵區別

將防禦對應到攻擊階段

接下來去哪

相關主題

參考文獻

學習路徑

理解 AI 防禦

學習路徑

相關文章

理解 AI 防禦

學習路徑

相關文章