What is Watermarking & AI-Generated Text Detection?

Statistical watermarking schemes for LLM outputs, AI-generated text detectors, their cryptographic foundations, and systematic techniques for evading or removing watermarks.

What is Constitutional Classifiers?

Anthropic's Constitutional Classifiers defense: using constitutional AI principles to train input/output classifiers that withstood 3,000+ hours of adversarial red teaming.

What is CaMeL & Dual LLM Pattern?

Architectural defense patterns that separate trusted and untrusted processing: Simon Willison's Dual LLM concept and Google DeepMind's CaMeL framework for defending tool-using AI agents against prompt injection.

進階防禦技術

Expert3 min readUpdated 2026-03-13

前沿防禦研究，包括指令階層、Constitutional AI，以及為安全之表徵工程——何者具前景、何者已實際部署。

advanced-defense instruction-hierarchy constitutional-ai representation-engineering research

防禦景觀正快速演進。本頁涵蓋 AI 安全研究前沿之技術——部分已於生產部署，部分仍於實驗室。對紅隊而言，理解下一步將到來者與理解當下已部署者同等重要。

優先層級	來源	範例
最高	系統提示（開發者）	「You are a customer service agent. Never discuss competitors.」
中	使用者訊息（直接使用者）	「Tell me about competitor products.」
最低	工具輸出／檢索內容	含以下之文件：「Ignore previous instructions...」

如何運作

訓練期間，模型暴露於「不同優先層級指令相衝突」之情境。它學會：

永遠遵循系統層指令
僅於與系統指令不衝突時遵循使用者指令
將工具輸出與檢索文件視為不受信任之資料，而非指令

部署狀態

供應商	實作	狀態（截至 2026）
OpenAI	GPT-4o+ 之模型層訓練	已生產部署
Anthropic	Claude 之系統提示特權	已生產部署
Microsoft	Azure OpenAI 指令階層	已生產部署
開源	多種微調做法	研究／實驗性

紅隊意涵

指令階層顯著降低直接提示注入之有效性，但：

優先度混淆攻擊 —— 打造使模型將其解讀為系統層之輸入（例如使模型相信該文字為系統提示一部分之格式仿冒）
階層耗盡 —— 以極長輸入稀釋模型對系統提示之注意力，實質降低其優先度
間接通道 —— 指令階層通常於使用者訊息通道最強；工具輸出與檢索文件之階層強制可能較弱

Constitutional AI（CAI）

機制

Constitutional AI 以模型自我監督取代部分人類監督：

產生初始回應
模型對查詢產生回應，可能含有害內容。
自我批判
模型依一組憲章原則評估自身回應：「此回應是否協助非法活動？是否欺騙？是否含有害偏誤？」
修訂
基於自我批判，模型產生較遵守原則之修訂回應。
依修訂訓練
修訂之回應作為訓練資料，教導模型直接產出具原則之回應。

優勢與弱點

優勢	弱點
無需人類評分者即可擴展	憲章可能不完整或模糊
原則明確且可稽核	模型可能誤解或誤用原則
降低安全訓練之主觀性	對抗輸入可將有害內容重新框架為符合原則
較人類資料更能覆蓋長尾情境	自我批判與模型本身共享盲點

紅隊意涵

原則重新框架 —— 若憲章說「不要協助非法活動」，將請求框架為合法（研究、教育、虛構）
原則衝突 —— 找到憲章原則彼此衝突之情境，迫使模型於其間優先其一
批判盲點 —— 模型之自我批判與其自身偏誤相同；利用模型盲點之攻擊可繞過生成與批判

為安全之表徵工程

做法

基於 activation 分析研究，表徵工程辨識模型內部表徵空間中與安全相關之方向，並用於防禦：

安全 probe —— 於隱藏狀態訓練之線性分類器，偵測模型何時生成不安全內容——即便輸出文字看似善意
Activation 約束 —— 修改模型前向傳遞，使 activation 保持於表徵空間之「安全」區域
拒絕方向放大 —— 強化表徵工程研究中辨識之拒絕方向，使安全訓練更難被繞過

部署狀態

技術	成熟度	已部署？
偵測之安全 probe	研究 → 早期生產	有限（部分供應商內部使用）
Activation 約束	研究	否
拒絕方向放大	研究	否
表徵監控	研究 → 實驗性	有限

防禦	論文發表	生產就緒	廣泛部署
指令階層	2023	2024	2025+
Constitutional AI	2022	2023	2024+（Anthropic）
表徵工程	2023	待定	尚未
認證穩健性	2023	待定	尚未
提示防火牆	2024	2025	有限
行為契約	2024	待定	尚未

參考資料

"The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace et al., OpenAI（2024）- 引入指令階層訓練以防禦提示注入之論文
"Constitutional AI: Harmlessness from AI Feedback" - Bai et al., Anthropic（2022）- 以模型自我批判進行對齊之奠基論文
"Representation Engineering: A Top-Down Approach to AI Transparency" - Zou et al., Center for AI Safety（2023）- 經由表徵空間讀取並控制模型內部之研究
"Certified Robustness to Adversarial Word Substitutions" - Jia et al.（2019）- 針對 NLP 模型穩健性之形式驗證做法之早期工作

Knowledge Check

為何指令階層顯著降低提示注入有效性，卻非完全消除之？

進階防禦技術

Expert3 min readUpdated 2026-03-13

前沿防禦研究，包括指令階層、Constitutional AI，以及為安全之表徵工程——何者具前景、何者已實際部署。

advanced-defense instruction-hierarchy constitutional-ai representation-engineering research

優先層級	來源	範例
最高	系統提示（開發者）	「You are a customer service agent. Never discuss competitors.」
中	使用者訊息（直接使用者）	「Tell me about competitor products.」
最低	工具輸出／檢索內容	含以下之文件：「Ignore previous instructions...」

如何運作

訓練期間，模型暴露於「不同優先層級指令相衝突」之情境。它學會：

永遠遵循系統層指令
僅於與系統指令不衝突時遵循使用者指令
將工具輸出與檢索文件視為不受信任之資料，而非指令

部署狀態

供應商	實作	狀態（截至 2026）
OpenAI	GPT-4o+ 之模型層訓練	已生產部署
Anthropic	Claude 之系統提示特權	已生產部署
Microsoft	Azure OpenAI 指令階層	已生產部署
開源	多種微調做法	研究／實驗性

紅隊意涵

指令階層顯著降低直接提示注入之有效性，但：

優先度混淆攻擊 —— 打造使模型將其解讀為系統層之輸入（例如使模型相信該文字為系統提示一部分之格式仿冒）
階層耗盡 —— 以極長輸入稀釋模型對系統提示之注意力，實質降低其優先度
間接通道 —— 指令階層通常於使用者訊息通道最強；工具輸出與檢索文件之階層強制可能較弱

Constitutional AI（CAI）

機制

Constitutional AI 以模型自我監督取代部分人類監督：

產生初始回應
模型對查詢產生回應，可能含有害內容。
自我批判
模型依一組憲章原則評估自身回應：「此回應是否協助非法活動？是否欺騙？是否含有害偏誤？」
修訂
基於自我批判，模型產生較遵守原則之修訂回應。
依修訂訓練
修訂之回應作為訓練資料，教導模型直接產出具原則之回應。

優勢與弱點

優勢	弱點
無需人類評分者即可擴展	憲章可能不完整或模糊
原則明確且可稽核	模型可能誤解或誤用原則
降低安全訓練之主觀性	對抗輸入可將有害內容重新框架為符合原則
較人類資料更能覆蓋長尾情境	自我批判與模型本身共享盲點

紅隊意涵

原則重新框架 —— 若憲章說「不要協助非法活動」，將請求框架為合法（研究、教育、虛構）
原則衝突 —— 找到憲章原則彼此衝突之情境，迫使模型於其間優先其一
批判盲點 —— 模型之自我批判與其自身偏誤相同；利用模型盲點之攻擊可繞過生成與批判

為安全之表徵工程

做法

基於 activation 分析研究，表徵工程辨識模型內部表徵空間中與安全相關之方向，並用於防禦：

安全 probe —— 於隱藏狀態訓練之線性分類器，偵測模型何時生成不安全內容——即便輸出文字看似善意
Activation 約束 —— 修改模型前向傳遞，使 activation 保持於表徵空間之「安全」區域
拒絕方向放大 —— 強化表徵工程研究中辨識之拒絕方向，使安全訓練更難被繞過

部署狀態

技術	成熟度	已部署？
偵測之安全 probe	研究 → 早期生產	有限（部分供應商內部使用）
Activation 約束	研究	否
拒絕方向放大	研究	否
表徵監控	研究 → 實驗性	有限

防禦	論文發表	生產就緒	廣泛部署
指令階層	2023	2024	2025+
Constitutional AI	2022	2023	2024+（Anthropic）
表徵工程	2023	待定	尚未
認證穩健性	2023	待定	尚未
提示防火牆	2024	2025	有限
行為契約	2024	待定	尚未

參考資料

"The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace et al., OpenAI（2024）- 引入指令階層訓練以防禦提示注入之論文
"Constitutional AI: Harmlessness from AI Feedback" - Bai et al., Anthropic（2022）- 以模型自我批判進行對齊之奠基論文
"Representation Engineering: A Top-Down Approach to AI Transparency" - Zou et al., Center for AI Safety（2023）- 經由表徵空間讀取並控制模型內部之研究
"Certified Robustness to Adversarial Word Substitutions" - Jia et al.（2019）- 針對 NLP 模型穩健性之形式驗證做法之早期工作

Knowledge Check

為何指令階層顯著降低提示注入有效性，卻非完全消除之？

進階防禦技術

產生初始回應

自我批判

修訂

依修訂訓練

Learning Path

Related articles

進階防禦技術

產生初始回應

自我批判

修訂

依修訂訓練

Learning Path

Related articles