進階防禦技術
前沿防禦研究,包括指令階層、Constitutional AI,以及為安全之表徵工程——何者具前景、何者已實際部署。
防禦景觀正快速演進。本頁涵蓋 AI 安全研究前沿之技術——部分已於生產部署,部分仍於實驗室。對紅隊而言,理解下一步將到來者與理解當下已部署者同等重要。
指令階層
問題
傳統 LLM 視其上下文視窗中所有文字具大致相同之權威。系統提示、使用者訊息與檢索文件皆爭奪模型之注意力。這使提示注入成為可能——攻擊者之文字可覆蓋開發者之指令。
解方
指令階層 訓練模型辨識並排序指令來源:
| 優先層級 | 來源 | 範例 |
|---|---|---|
| 最高 | 系統提示(開發者) | 「You are a customer service agent. Never discuss competitors.」 |
| 中 | 使用者訊息(直接使用者) | 「Tell me about competitor products.」 |
| 最低 | 工具輸出/檢索內容 | 含以下之文件:「Ignore previous instructions...」 |
如何運作
訓練期間,模型暴露於「不同優先層級指令相衝突」之情境。它學會:
- 永遠遵循系統層指令
- 僅於與系統指令不衝突時遵循使用者指令
- 將工具輸出與檢索文件視為不受信任之資料,而非指令
部署狀態
| 供應商 | 實作 | 狀態(截至 2026) |
|---|---|---|
| OpenAI | GPT-4o+ 之模型層訓練 | 已生產部署 |
| Anthropic | Claude 之系統提示特權 | 已生產部署 |
| Microsoft | Azure OpenAI 指令階層 | 已生產部署 |
| 開源 | 多種微調做法 | 研究/實驗性 |
紅隊意涵
指令階層顯著降低直接提示注入之有效性,但:
- 優先度混淆攻擊 —— 打造使模型將其解讀為系統層之輸入(例如使模型相信該文字為系統提示一部分之格式仿冒)
- 階層耗盡 —— 以極長輸入稀釋模型對系統提示之注意力,實質降低其優先度
- 間接通道 —— 指令階層通常於使用者訊息通道最強;工具輸出與檢索文件之階層強制可能較弱
Constitutional AI(CAI)
機制
Constitutional AI 以模型自我監督取代部分人類監督:
產生初始回應
模型對查詢產生回應,可能含有害內容。
自我批判
模型依一組憲章原則評估自身回應:「此回應是否協助非法活動?是否欺騙?是否含有害偏誤?」
修訂
基於自我批判,模型產生較遵守原則之修訂回應。
依修訂訓練
修訂之回應作為訓練資料,教導模型直接產出具原則之回應。
優勢與弱點
| 優勢 | 弱點 |
|---|---|
| 無需人類評分者即可擴展 | 憲章可能不完整或模糊 |
| 原則明確且可稽核 | 模型可能誤解或誤用原則 |
| 降低安全訓練之主觀性 | 對抗輸入可將有害內容重新框架為符合原則 |
| 較人類資料更能覆蓋長尾情境 | 自我批判與模型本身共享盲點 |
紅隊意涵
- 原則重新框架 —— 若憲章說「不要協助非法活動」,將請求框架為合法(研究、教育、虛構)
- 原則衝突 —— 找到憲章原則彼此衝突之情境,迫使模型於其間優先其一
- 批判盲點 —— 模型之自我批判與其自身偏誤相同;利用模型盲點之攻擊可繞過生成與批判
為安全之表徵工程
做法
基於 activation 分析研究,表徵工程辨識模型內部表徵空間中與安全相關之方向,並用於防禦:
- 安全 probe —— 於隱藏狀態訓練之線性分類器,偵測模型何時生成不安全內容——即便輸出文字看似善意
- Activation 約束 —— 修改模型前向傳遞,使 activation 保持於表徵空間之「安全」區域
- 拒絕方向放大 —— 強化表徵工程研究中辨識之拒絕方向,使安全訓練更難被繞過
部署狀態
| 技術 | 成熟度 | 已部署? |
|---|---|---|
| 偵測之安全 probe | 研究 → 早期生產 | 有限(部分供應商內部使用) |
| Activation 約束 | 研究 | 否 |
| 拒絕方向放大 | 研究 | 否 |
| 表徵監控 | 研究 → 實驗性 | 有限 |
新興技術
提示防火牆
位於使用者與主要模型之間的專門模型——重寫輸入以中和潛在注入,同時保留使用者意圖。與 shield(封鎖)不同——防火牆進行變換。
認證穩健性
自對抗 ML 改寫之形式驗證技術,於定義輸入界限內提供模型行為之數學保證。目前限於小型模型與狹窄屬性。
多模型共識
使用多個不同模型(不同架構、不同訓練資料)評估同一請求。若模型對請求是否安全不同意,則標記供審查。於某模型架構上有效之攻擊,可能於另一架構失敗。
行為契約
於推論時檢查之模型行為預期之形式規格。模型輸出必須於給定輸入(前置條件)下滿足契約(後置條件)。違反觸發回退行為。
研究 vs. 部署:現實檢視
| 防禦 | 論文發表 | 生產就緒 | 廣泛部署 |
|---|---|---|---|
| 指令階層 | 2023 | 2024 | 2025+ |
| Constitutional AI | 2022 | 2023 | 2024+(Anthropic) |
| 表徵工程 | 2023 | 待定 | 尚未 |
| 認證穩健性 | 2023 | 待定 | 尚未 |
| 提示防火牆 | 2024 | 2025 | 有限 |
| 行為契約 | 2024 | 待定 | 尚未 |
延伸閱讀
- Activation 分析與隱藏狀態攻擊 -- 表徵工程之攻擊對應
- 浮水印與 AI 產生文字偵測 -- 另一進階防禦技術
- AI 防禦景觀 -- 已部署防禦之更廣視角
- Guardrail 與安全層架構 -- 進階技術於架構上之位置
相關主題
- Guardrail 與安全層架構 - 進階技術於架構上之位置
- 浮水印與 AI 產生文字偵測 - 另一進階防禦技術
- AI 防禦景觀 - 已部署防禦及其成熟度之更廣視角
- 預訓練、微調、RLHF 管線 - 套用 Constitutional AI 與指令階層之訓練階段
參考資料
- "The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace et al., OpenAI(2024)- 引入指令階層訓練以防禦提示注入之論文
- "Constitutional AI: Harmlessness from AI Feedback" - Bai et al., Anthropic(2022)- 以模型自我批判進行對齊之奠基論文
- "Representation Engineering: A Top-Down Approach to AI Transparency" - Zou et al., Center for AI Safety(2023)- 經由表徵空間讀取並控制模型內部之研究
- "Certified Robustness to Adversarial Word Substitutions" - Jia et al.(2019)- 針對 NLP 模型穩健性之形式驗證做法之早期工作
為何指令階層顯著降低提示注入有效性,卻非完全消除之?