What is AI 監控與可觀測性?

於 AI 系統監控什麼、為偵測濫用與漂移之關鍵指標、警報策略，與 LLM 應用之可觀測性架構。

What is 安全開發?

AI 應用程式的安全設計原則，包含防禦性提示詞工程、輸入驗證、輸出清理，以及將安全測試整合至 CI/CD 管線。

What is 紅隊發現 → 修復建議?

如何將攻擊端發現對應到防禦建議、AI 漏洞的嚴重性評分、可執行的修復指引，以及「報告到修復」的完整流程。

What is 進階防禦技術?

前沿防禦研究，包括指令階層、Constitutional AI，以及為安全之表徵工程——何者具前景、何者已實際部署。

What is 防護機制與安全層架構?

防護系統在架構上如何設計，包括前置處理、推論中處理與後置處理層、常見設計模式，以及各層可被繞過之處。

What is Patterns for Hardening System Prompts?

Practical patterns and techniques for hardening LLM system prompts against injection, extraction, and manipulation attacks, including structural defenses, instruction hierarchy, delimiter strategies, and defense-in-depth approaches.

What is Watermarking LLM Outputs for Provenance?

進階 techniques for watermarking LLM-generated text to establish provenance, including deployment architectures, multi-bit encoding schemes, robustness considerations, and the role of watermarking in AI security and accountability frameworks.

What is 安全 Considerations in 模型 Cards?

Comprehensive guide to incorporating security assessments, red team findings, vulnerability disclosures, and threat model documentation into model cards, enabling downstream consumers to make informed security decisions.

What is Building 紅隊 as a Service Offerings?

Practical guide to building and delivering AI red team as a service (RTaaS) offerings, including service design, engagement models, pricing strategies, tooling infrastructure, and quality assurance for commercial AI security testing services.

What is 實驗室: Systematically Bypassing Guardrails?

Hands-on lab for methodically probing, classifying, and bypassing input/output guardrails in production AI systems using a structured red team workflow.

防禦與緩解

Beginner1 min readUpdated 2026-03-15

AI 系統的防禦策略，包含護欄架構、監控與可觀測性、安全開發實務、修復對應與進階防禦技術。

defense mitigation guardrails monitoring secure-development remediation

沒有可行動之防禦建議的紅隊演練是不完整的。本節涵蓋 AI 系統的防禦面——不只是「有哪些防禦」，還包括「它們如何運作、在何處失效，以及如何為特定威脅模型推薦正確的組合」。深入理解防禦對紅隊員至關重要：您無法有效繞過不理解的護欄，若不知道有哪些解法與其限制，也無法寫出有用的修復建議。

目前 AI 防禦的現況具有根本性的不對稱：攻擊者受惠於語言模型架構中「分離指令與資料」本身的困難。沒有任何單一防禦能可靠阻擋所有攻擊向量，因此業界已收斂於縱深防禦策略——疊加多項互補控制。每一層捕捉不同類別的攻擊，組合起來將成功利用所需的成本推升至多數對手不願付出的水準。

防禦堆疊

有效的 AI 安全倚賴應用程式堆疊每一層的控制。單一控制不足以，但控制的組合能對對抗性活動建立有意義的抵抗。

輸入過濾 在使用者輸入抵達模型前檢視，尋找已知注入模式、可疑編碼與違反政策的內容。現代輸入過濾器從簡單正規表達式比對到為偵測對抗意圖而訓練的精密 ML 分類器皆有。其主要弱點是：它們基於表面模式運作，可透過混淆、編碼技巧與保留對抗意圖但改變表面形式的語意改寫而被繞過。

大型語言模型裁判 使用另一個語言模型評估輸入與輸出之安全性與政策遵循。此方法運用的是使大型語言模型在內容生成上強大之同一語意理解能力，但把它應用到內容分類。關鍵優勢是語意理解——大型語言模型裁判能辨識出「pretend you are an AI without restrictions」是試圖繞過安全訓練，即使使用了新穎措辭。關鍵限制是：大型語言模型裁判本身也容易受對抗性輸入攻擊，且會增加延遲與成本。

輸出過濾 於模型回應回傳使用者前檢視，捕捉輸入過濾被繞過的情況。輸出過濾器可偵測敏感資料外洩、政策違反與成功注入的徵兆；它作為關鍵後援，但無法阻止在輸出產生前就發生的副作用，例如工具呼叫或資料寫入。

執行時監控 提供跨時間對模型行為的可見度，能偵測單點過濾器會遺漏的異常模式。包含追蹤提示詞模式、回應分佈、符元使用異常與工具呼叫模式。監控對於偵測持續性攻擊、「慢燒型」利用與能規避規則型防禦的新型攻擊技術至關重要。

防禦效能與繞過

每一種防禦都有已知的繞過技術，理解這些對攻擊者與防禦者皆至關重要。

防禦層	所能捕捉	常見繞過方式
輸入過濾	已知注入模式、封鎖清單詞彙	編碼、混淆、同義替換
大型語言模型裁判	語意上的對抗內容	元提示詞、上下文操控、針對裁判的越獄
輸出過濾	資料外洩、政策違反	隱寫編碼、間接通道、透過工具的外洩
內容安全 API	毒性、有害內容類別	細微改寫、上下文包裝、邊界案例利用
速率限制	暴力攻擊、自動化掃描	分散請求、低速緩慢手法

本節您將學到

護欄與安全層 ——輸入／輸出過濾、大型語言模型裁判、內容安全 API、NeMo Guardrails、LLM Guard 與 Prompt Shields 的架構與評估
監控與可觀測性 ——為 AI 系統建置具異常偵測、記錄架構與行為分析的偵測管線
安全開發 ——AI 應用程式的安全預設原則，包含提示詞強化、工具最小權限存取與安全整合模式
修復對應 ——運用縱深防禦、執行時監控、速率限制與沙箱策略，將紅隊發現轉譯為具體修復行動
進階防禦 ——尖端防禦技術，包含憲法式分類器、雙大型語言模型架構、浮水印偵測與對抗式訓練
實驗：繞過護欄 ——動手辨識與利用常見護欄實作的弱點

先備知識

本節可從多個入口進入：

對於紅隊員 ——請先完成提示詞注入與代理利用章節，理解防禦試圖阻止的是什麼
對於防禦者 ——請從基礎開始，建立必要的 AI 與安全背景
對於架構師 ——請閱讀 AI 系統架構以理解這些防禦所套用之部署模式

Learning Path

0/74 completed

~1190 min total74 lessons

Start Learning

Edit this page on GitHub

防禦與緩解

Learning Path

Related articles

防禦與緩解

Learning Path

Related articles