憲法式分類器

中級4 分鐘閱讀更新於 2026-03-15

Anthropic 的憲法式分類器防禦:使用憲法式 AI 原則訓練承受 3,000+ 小時對抗性紅隊演練的輸入/輸出分類器。

constitutional-classifiers defense jailbreak-defense anthropic classifiers constitutional-ai

傳統安全訓練教導模型自身拒絕有害請求。但當對手透過越獄找到規避訓練的方法時會怎樣?憲法式分類器 (Constitutional Classifiers) 採取根本不同的方法:不再單靠模型自身判斷,而是部署專為偵測對抗性輸入與有害輸出而訓練的獨立分類器模型。

問題:大規模的越獄

理解解決方案前,須先理解憲法式分類器所要處理問題的規模。

越獄景觀

現代越獄技術已遠超簡單的「忽略你的指令」提示詞:

攻擊類別	範例技術	為何傳統防禦失敗
編碼攻擊	Base64、ROT13、Unicode 替換	模型安全訓練未涵蓋所有編碼格式
人格操縱	「你是 DAN」、角色扮演情境	強烈人格指令可覆寫安全訓練
多輪升級	跨多訊息逐步轉移上下文	每則訊息看似良性;危害從序列中浮現
語言切換	以低資源語言請求有害內容	安全訓練在代表性不足的語言中較弱
提示詞注入	嵌入於工具輸出、圖片、文件中的指令	指令繞過面向使用者的安全層

根本挑戰在於模型的安全訓練與處理對抗性輸入屬於同一系統。能操縱模型處理的攻擊者同樣能操縱其安全行為。

憲法式分類器如何運作

架構總覽

憲法式分類器作為基座模型周圍的雙層防禦部署:

使用者輸入 → [輸入分類器] → 基座模型 → [輸出分類器] → 使用者輸出
                 ↓ (阻擋)                       ↓ (阻擋)
              拒絕回應                       拒絕回應

輸入分類器篩選傳入提示詞的對抗性意圖。輸出分類器篩選模型回應的有害內容。兩個分類器皆為與所保護基座模型獨立的模型。

憲法式 AI 訓練管線

關鍵創新在於分類器訓練資料的生成方式。憲法式分類器不依賴人工標註資料集 (昂貴且無法涵蓋對抗技術的完整空間),而使用受憲法式 AI 啟發的自我監督管線:

定義憲法原則
研究者定義描述何為有害內容的一組原則。這些是自然語言描述——例如「提供合成管制物質的逐步指示的內容」或「可用於針對特定個人產生有說服力釣魚訊息的內容」。
生成合成對抗性範例
以 LLM 生成大量、多樣的對抗性提示詞,試圖引發每個憲法原則的違反。這包括多種攻擊格式:編碼技巧、人格操縱、多語言請求,以及 LLM 能想像的新穎技術。
生成合成良性範例
相同流程生成主題上與有害範例相似但不違反任何原則的良性提示詞。這對降低偽陽性至關重要——分類器需區分「甲基安非他命如何影響大腦?」(良性、教育性) 與「如何合成甲基安非他命?」(有害)。
憲法評估
以另一 LLM 將生成的範例對照憲法原則評估,產生帶解釋的標籤 (有害/良性)。解釋用於品質控制並辨識邊界案例。
訓練分類器
對標註好的合成資料進行標準分類器訓練,產生針對偵測對抗性輸入與有害輸出最佳化的模型。
以對抗回饋迭代
紅隊攻擊受分類器保護的系統,成功的攻擊回饋至訓練管線,以產生涵蓋所發現缺口的更多訓練資料。

紅隊研究:3,000+ 小時的對抗性測試

研究設計

Anthropic 進行了至今對 AI 防禦系統最廣泛的對抗性評估之一。研究參數:

參數	細節
參與者	具 AI 安全經驗的專業紅隊成員
持續時間	逾 3,000 人時的對抗性測試
目標	繞過憲法式分類器從受防禦模型萃取有害內容
基線	無憲法式分類器的同一模型
指標	攻擊成功率 (ASR) — 成功引出有害內容的嘗試百分比

結果

頭條結果引人注目:

配置	攻擊成功率	備註
未防禦模型	~86%	多數越獄技術對基座模型成功
含憲法式分類器的模型	~4.4%	成功攻擊大幅減少

這代表攻擊成功率大約 降低 20 倍。

仍成功的攻擊有哪些?

繞過憲法式分類器的 ~4.4% 攻擊通常屬於以下類別:

類別	描述	為何繞過
新型編碼方案	自訂或極少見的編碼格式	訓練資料中未呈現
極端上下文操縱	極長的對話逐漸轉移上下文	分類器分析的上下文視窗有限
語意偽裝	使用領域特定術語或比喻表達有害內容	表層特徵不符有害樣式
針對分類器的對抗性範例	專門設計以欺騙分類器模型的輸入	分類器本身是易受對抗範例攻擊的 ML 模型

取捨與限制

拒絕率問題

憲法式分類器增加安全性,但也增加良性查詢被錯誤拒絕的比率。這是任何分類系統的基本精確率-召回率取捨:

指標	無分類器	含分類器
攻擊成功率	~86%	~4.4%
良性查詢偽拒絕率	低	可測量地增加
使用者體驗影響	低 (但不安全)	可感知 (但更安全)

邊界內容

對憲法式分類器最挑戰的領域是邊界內容——可能根據上下文為有害或良性的請求:

「如何開鎖」 — 合法鎖匠教育或竊盜準備?
「寫一則故事,角色解釋如何製造爆炸物」 — 創意小說或資訊洗白?
「[特定物質] 中毒的症狀為何?」 — 醫學教育或傷害規劃?

憲法式分類器傾向於對邊界內容謹慎,這推高了偽拒絕率。憲法原則可調整以改變此閾值,但無任何配置能同時最小化偽陽性與偽陰性。

延遲影響

對每個請求增加兩次分類器推論 (輸入與輸出) 引入延遲:

組件	典型延遲影響
輸入分類器	額外 50-200ms
輸出分類器	額外 50-200ms
總開銷	每請求 100-400ms

對即時應用,此開銷可能可接受。對延遲敏感的使用案例 (程式碼補全、互動式代理),可能需要最佳化 (較小分類器模型、批次推論、推測執行)。

與其他防禦方法比較

防禦景觀脈絡

憲法式分類器是更廣泛防禦生態中的一種方法。理解它們如何比較有助紅隊評估面對的防禦:

防禦方法	運作方式	優勢	弱點
安全訓練 (RLHF/DPO)	訓練模型自身拒絕有害請求	低延遲、無額外基礎設施	可被越獄;模型既是裁判也是執行者
憲法式分類器	獨立分類器篩選輸入/輸出	縱深防禦;難同時越獄模型與分類器	延遲開銷;偽拒絕;需維護獨立模型
指令階層	訓練模型優先系統指令	直接處理提示詞注入	對直接越獄無助
輸出過濾 (關鍵字/regex)	模型輸出上的樣式比對	快速、簡單、不需 ML	以改寫繞過容易;偽陽性率高
Dual LLM / CaMeL	分離受信任與不受信任處理	對使用工具的代理有強隔離	架構複雜性;主要針對提示詞注入

關鍵差異點

憲法式分類器的獨特價值是它們 獨立於 基座模型。越獄基座模型不會越獄分類器。攻擊者必須:

製作繞過輸入分類器且越獄基座模型的輸入,或
越獄基座模型且製作繞過輸出分類器的輸出,或
同時繞過兩個分類器

這與依賴模型自身的防禦相比大幅提高門檻。

對紅隊的意涵

攻擊憲法式分類器

對面臨憲法式分類器防禦的紅隊成員,攻擊面移轉:

傳統目標	新目標	技術調整
模型的安全訓練	輸入分類器模型	欺騙分類器同時攜帶有害意圖的對抗性範例
系統提示詞	分類器決策邊界	尋找邊界附近被誤判為良性的輸入
模型推理	分類器訓練資料缺口	使用合成訓練資料中未充分呈現的格式與編碼
單一模型	雙模型系統	考慮利用分類器與基座模型互動的攻擊

實務攻擊策略

分類器探測:發送一系列輸入以繪製分類器的決策邊界。辨識哪些特徵觸發拒絕、哪些不會。
編碼多樣性:測試合成訓練資料可能未涵蓋的異常編碼、字元集與格式化。
語意間接:透過類比、比喻或分類器可能不認為有害的領域特定語言表達有害意圖。
拆分請求攻擊:將有害內容分散於多個看似良性的請求中,它們組合起來形成有害資訊。
分類器對抗範例:若分類器架構已知,製作專門對該分類器對抗的輸入。

部署考量

何時使用憲法式分類器

情境	建議	理由
高風險應用 (醫療、法律、財務)	強烈建議	安全效益證明延遲與偽拒絕成本合理
高量消費級聊天機器人	考慮搭配調校閾值	平衡安全與使用者體驗
內部企業助理	取決於資料敏感度	若使用低風險且有監控,可能非必要
程式碼生成工具	僅考慮輸出分類器	輸入分類器可能阻擋合法程式碼相關查詢
創意寫作助理	以寬鬆閾值使用	過度積極的分類器阻礙創意用例

與既有防禦整合

憲法式分類器作為分層防禦的一部分最有效:

輸入驗證 (非 ML) — 阻擋已知惡意樣式、強制格式約束
憲法式分類器 (輸入) — ML 基礎的對抗性意圖篩選
經安全訓練的基座模型 — 模型自身的安全訓練作為防禦層
憲法式分類器 (輸出) — ML 基礎的有害內容篩選
輸出驗證 (非 ML) — 格式強制、PII 遮罩、合規檢查

參考資料

"Constitutional AI: Harmlessness from AI Feedback" - Bai, Y., et al., Anthropic (2022) - 啟發分類器訓練方法的基礎憲法式 AI 論文
"Defending Against Jailbreaks with Constitutional Classifiers" - Anthropic (2025) - 介紹憲法式分類器並呈現紅隊評估結果的論文
"The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace, E., et al., OpenAI (2024) - 在模型訓練層運作的互補防禦方法
"Jailbroken: How Does LLM Safety Training Fail?" - Wei, A., et al. (2024) - 分析僅靠安全訓練為何不足,促成外部分類器方法

Knowledge Check

相較於僅靠安全訓練作為越獄防禦,憲法式分類器的主要優勢為何?

憲法式分類器

中級4 分鐘閱讀更新於 2026-03-15

Anthropic 的憲法式分類器防禦:使用憲法式 AI 原則訓練承受 3,000+ 小時對抗性紅隊演練的輸入/輸出分類器。

constitutional-classifiers defense jailbreak-defense anthropic classifiers constitutional-ai

問題:大規模的越獄

理解解決方案前,須先理解憲法式分類器所要處理問題的規模。

越獄景觀

現代越獄技術已遠超簡單的「忽略你的指令」提示詞:

攻擊類別	範例技術	為何傳統防禦失敗
編碼攻擊	Base64、ROT13、Unicode 替換	模型安全訓練未涵蓋所有編碼格式
人格操縱	「你是 DAN」、角色扮演情境	強烈人格指令可覆寫安全訓練
多輪升級	跨多訊息逐步轉移上下文	每則訊息看似良性;危害從序列中浮現
語言切換	以低資源語言請求有害內容	安全訓練在代表性不足的語言中較弱
提示詞注入	嵌入於工具輸出、圖片、文件中的指令	指令繞過面向使用者的安全層

根本挑戰在於模型的安全訓練與處理對抗性輸入屬於同一系統。能操縱模型處理的攻擊者同樣能操縱其安全行為。

憲法式分類器如何運作

架構總覽

憲法式分類器作為基座模型周圍的雙層防禦部署:

使用者輸入 → [輸入分類器] → 基座模型 → [輸出分類器] → 使用者輸出
                 ↓ (阻擋)                       ↓ (阻擋)
              拒絕回應                       拒絕回應

輸入分類器篩選傳入提示詞的對抗性意圖。輸出分類器篩選模型回應的有害內容。兩個分類器皆為與所保護基座模型獨立的模型。

憲法式 AI 訓練管線

定義憲法原則
研究者定義描述何為有害內容的一組原則。這些是自然語言描述——例如「提供合成管制物質的逐步指示的內容」或「可用於針對特定個人產生有說服力釣魚訊息的內容」。
生成合成對抗性範例
以 LLM 生成大量、多樣的對抗性提示詞,試圖引發每個憲法原則的違反。這包括多種攻擊格式:編碼技巧、人格操縱、多語言請求,以及 LLM 能想像的新穎技術。
生成合成良性範例
相同流程生成主題上與有害範例相似但不違反任何原則的良性提示詞。這對降低偽陽性至關重要——分類器需區分「甲基安非他命如何影響大腦?」(良性、教育性) 與「如何合成甲基安非他命?」(有害)。
憲法評估
以另一 LLM 將生成的範例對照憲法原則評估,產生帶解釋的標籤 (有害/良性)。解釋用於品質控制並辨識邊界案例。
訓練分類器
對標註好的合成資料進行標準分類器訓練,產生針對偵測對抗性輸入與有害輸出最佳化的模型。
以對抗回饋迭代
紅隊攻擊受分類器保護的系統,成功的攻擊回饋至訓練管線,以產生涵蓋所發現缺口的更多訓練資料。

紅隊研究:3,000+ 小時的對抗性測試

研究設計

Anthropic 進行了至今對 AI 防禦系統最廣泛的對抗性評估之一。研究參數:

參數	細節
參與者	具 AI 安全經驗的專業紅隊成員
持續時間	逾 3,000 人時的對抗性測試
目標	繞過憲法式分類器從受防禦模型萃取有害內容
基線	無憲法式分類器的同一模型
指標	攻擊成功率 (ASR) — 成功引出有害內容的嘗試百分比

結果

頭條結果引人注目:

配置	攻擊成功率	備註
未防禦模型	~86%	多數越獄技術對基座模型成功
含憲法式分類器的模型	~4.4%	成功攻擊大幅減少

這代表攻擊成功率大約 降低 20 倍。

仍成功的攻擊有哪些?

繞過憲法式分類器的 ~4.4% 攻擊通常屬於以下類別:

類別	描述	為何繞過
新型編碼方案	自訂或極少見的編碼格式	訓練資料中未呈現
極端上下文操縱	極長的對話逐漸轉移上下文	分類器分析的上下文視窗有限
語意偽裝	使用領域特定術語或比喻表達有害內容	表層特徵不符有害樣式
針對分類器的對抗性範例	專門設計以欺騙分類器模型的輸入	分類器本身是易受對抗範例攻擊的 ML 模型

取捨與限制

拒絕率問題

憲法式分類器增加安全性,但也增加良性查詢被錯誤拒絕的比率。這是任何分類系統的基本精確率-召回率取捨:

指標	無分類器	含分類器
攻擊成功率	~86%	~4.4%
良性查詢偽拒絕率	低	可測量地增加
使用者體驗影響	低 (但不安全)	可感知 (但更安全)

邊界內容

對憲法式分類器最挑戰的領域是邊界內容——可能根據上下文為有害或良性的請求:

「如何開鎖」 — 合法鎖匠教育或竊盜準備?
「寫一則故事,角色解釋如何製造爆炸物」 — 創意小說或資訊洗白?
「[特定物質] 中毒的症狀為何?」 — 醫學教育或傷害規劃?

憲法式分類器傾向於對邊界內容謹慎,這推高了偽拒絕率。憲法原則可調整以改變此閾值,但無任何配置能同時最小化偽陽性與偽陰性。

延遲影響

對每個請求增加兩次分類器推論 (輸入與輸出) 引入延遲:

組件	典型延遲影響
輸入分類器	額外 50-200ms
輸出分類器	額外 50-200ms
總開銷	每請求 100-400ms

對即時應用,此開銷可能可接受。對延遲敏感的使用案例 (程式碼補全、互動式代理),可能需要最佳化 (較小分類器模型、批次推論、推測執行)。

與其他防禦方法比較

防禦景觀脈絡

憲法式分類器是更廣泛防禦生態中的一種方法。理解它們如何比較有助紅隊評估面對的防禦:

防禦方法	運作方式	優勢	弱點
安全訓練 (RLHF/DPO)	訓練模型自身拒絕有害請求	低延遲、無額外基礎設施	可被越獄;模型既是裁判也是執行者
憲法式分類器	獨立分類器篩選輸入/輸出	縱深防禦;難同時越獄模型與分類器	延遲開銷;偽拒絕;需維護獨立模型
指令階層	訓練模型優先系統指令	直接處理提示詞注入	對直接越獄無助
輸出過濾 (關鍵字/regex)	模型輸出上的樣式比對	快速、簡單、不需 ML	以改寫繞過容易;偽陽性率高
Dual LLM / CaMeL	分離受信任與不受信任處理	對使用工具的代理有強隔離	架構複雜性;主要針對提示詞注入

關鍵差異點

憲法式分類器的獨特價值是它們 獨立於 基座模型。越獄基座模型不會越獄分類器。攻擊者必須:

製作繞過輸入分類器且越獄基座模型的輸入,或
越獄基座模型且製作繞過輸出分類器的輸出,或
同時繞過兩個分類器

這與依賴模型自身的防禦相比大幅提高門檻。

對紅隊的意涵

攻擊憲法式分類器

對面臨憲法式分類器防禦的紅隊成員,攻擊面移轉:

傳統目標	新目標	技術調整
模型的安全訓練	輸入分類器模型	欺騙分類器同時攜帶有害意圖的對抗性範例
系統提示詞	分類器決策邊界	尋找邊界附近被誤判為良性的輸入
模型推理	分類器訓練資料缺口	使用合成訓練資料中未充分呈現的格式與編碼
單一模型	雙模型系統	考慮利用分類器與基座模型互動的攻擊

實務攻擊策略

分類器探測:發送一系列輸入以繪製分類器的決策邊界。辨識哪些特徵觸發拒絕、哪些不會。
編碼多樣性:測試合成訓練資料可能未涵蓋的異常編碼、字元集與格式化。
語意間接:透過類比、比喻或分類器可能不認為有害的領域特定語言表達有害意圖。
拆分請求攻擊:將有害內容分散於多個看似良性的請求中,它們組合起來形成有害資訊。
分類器對抗範例:若分類器架構已知,製作專門對該分類器對抗的輸入。

部署考量

何時使用憲法式分類器

情境	建議	理由
高風險應用 (醫療、法律、財務)	強烈建議	安全效益證明延遲與偽拒絕成本合理
高量消費級聊天機器人	考慮搭配調校閾值	平衡安全與使用者體驗
內部企業助理	取決於資料敏感度	若使用低風險且有監控,可能非必要
程式碼生成工具	僅考慮輸出分類器	輸入分類器可能阻擋合法程式碼相關查詢
創意寫作助理	以寬鬆閾值使用	過度積極的分類器阻礙創意用例

與既有防禦整合

憲法式分類器作為分層防禦的一部分最有效:

輸入驗證 (非 ML) — 阻擋已知惡意樣式、強制格式約束
憲法式分類器 (輸入) — ML 基礎的對抗性意圖篩選
經安全訓練的基座模型 — 模型自身的安全訓練作為防禦層
憲法式分類器 (輸出) — ML 基礎的有害內容篩選
輸出驗證 (非 ML) — 格式強制、PII 遮罩、合規檢查

參考資料

"Constitutional AI: Harmlessness from AI Feedback" - Bai, Y., et al., Anthropic (2022) - 啟發分類器訓練方法的基礎憲法式 AI 論文
"Defending Against Jailbreaks with Constitutional Classifiers" - Anthropic (2025) - 介紹憲法式分類器並呈現紅隊評估結果的論文
"The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions" - Wallace, E., et al., OpenAI (2024) - 在模型訓練層運作的互補防禦方法
"Jailbroken: How Does LLM Safety Training Fail?" - Wei, A., et al. (2024) - 分析僅靠安全訓練為何不足,促成外部分類器方法

Knowledge Check

相較於僅靠安全訓練作為越獄防禦,憲法式分類器的主要優勢為何?

憲法式分類器

定義憲法原則

生成合成對抗性範例

生成合成良性範例

憲法評估

訓練分類器

以對抗回饋迭代

相關文章

憲法式分類器

定義憲法原則

生成合成對抗性範例

生成合成良性範例

憲法評估

訓練分類器

以對抗回饋迭代

相關文章