理解大型語言模型安全訓練

中級1 分鐘閱讀更新於 2026-03-20

安全訓練如何運作，包含 RLHF、DPO、憲法式 AI，以及為何它可被繞過。

safety-training rlhf dpo constitutional-ai foundations

概覽

本頁提供安全訓練如何運作的深入概念性概覽——不僅特定方法（RLHF、DPO、憲法式 AI），更是核心機制：模型學得什麼、它們沒學得什麼，以及為何學得的總是不完整。理解這些基礎使紅隊員能預測模型行為並設計有效攻擊。

安全訓練試圖教什麼

拒答訓練

辨識有害請求
提供拒答回應
維持拒答於變體下

有用性訓練

於合法請求有用回答
於模糊情境平衡幫助與安全
避免過度保守拒答

對齊訓練

遵循人類偏好
避免誤導或有偏
遵循指令階層

核心限制

限制 1：分佈敏感度

安全訓練於訓練分佈最強。分佈外輸入（新穎措辭、編碼、罕見脈絡）於安全覆蓋薄弱。

意涵：編碼攻擊、虛構框架、稀有語言常繞過安全

限制 2：淺層表徵

安全訓練不根本改變模型能力——它教模型於特定情境下不表達某些能力。能力持續於權重中，僅被壓制。

意涵：微調可快速揭露隱藏能力；分佈外情境可引發它們

限制 3：競爭目標

模型被訓練為安全的同時，也被訓練為合作、遵循指令、有用。這些目標可衝突——攻擊者可引發模型中競爭目標的「鬥爭」。

意涵：社交工程、角色扮演可利用此張力使模型優先合作勝過安全

限制 4：缺乏根本理解

模型不真正「理解」為何某些內容有害——它們識別此訓練期間學得的模式。新穎有害情境可能通過因為它們不匹配學得模式。

意涵：新穎攻擊面、組合攻擊、持續演進的威脅

為何繞過成為可能

理解這些限制解釋為何越獄有效：

許多可能輸入：訓練只涵蓋少量
底層能力保留：等待被引發
獎勵模型可利用：於獎勵中找洞
多目標衝突：安全與其他目標鬥爭

對紅隊演練的意涵

紅隊員應：

尋找分佈外輸入
於虛構／學術框架中測試
利用合作傾向
使用新穎攻擊類別
多輪建立脈絡以壓制安全

對防禦的意涵

有效防禦必須：

接受「永不完美」現實
實作多層方法
對新攻擊類別持續對抗訓練
將安全訓練與外部護欄結合
定期紅隊演練驗證

新興方向

刪除式訓練：移除而非壓制能力
機制可解釋性：理解並直接操控內部
憲法式 AI：明確原則取代隱含偏好
分離安全與能力：專用安全模型

參考文獻

Ouyang et al. (2022). "InstructGPT"
Bai et al. (2022). "Constitutional AI"
Wei et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
Qi et al. (2023). "Fine-tuning Aligned Language Models Compromises Safety"

Knowledge Check

為何安全訓練永遠不完美？

理解大型語言模型安全訓練

中級1 分鐘閱讀更新於 2026-03-20

安全訓練如何運作，包含 RLHF、DPO、憲法式 AI，以及為何它可被繞過。

safety-training rlhf dpo constitutional-ai foundations

概覽

安全訓練試圖教什麼

拒答訓練

辨識有害請求
提供拒答回應
維持拒答於變體下

有用性訓練

於合法請求有用回答
於模糊情境平衡幫助與安全
避免過度保守拒答

對齊訓練

遵循人類偏好
避免誤導或有偏
遵循指令階層

核心限制

限制 1：分佈敏感度

安全訓練於訓練分佈最強。分佈外輸入（新穎措辭、編碼、罕見脈絡）於安全覆蓋薄弱。

意涵：編碼攻擊、虛構框架、稀有語言常繞過安全

限制 2：淺層表徵

安全訓練不根本改變模型能力——它教模型於特定情境下不表達某些能力。能力持續於權重中，僅被壓制。

意涵：微調可快速揭露隱藏能力；分佈外情境可引發它們

限制 3：競爭目標

模型被訓練為安全的同時，也被訓練為合作、遵循指令、有用。這些目標可衝突——攻擊者可引發模型中競爭目標的「鬥爭」。

意涵：社交工程、角色扮演可利用此張力使模型優先合作勝過安全

限制 4：缺乏根本理解

模型不真正「理解」為何某些內容有害——它們識別此訓練期間學得的模式。新穎有害情境可能通過因為它們不匹配學得模式。

意涵：新穎攻擊面、組合攻擊、持續演進的威脅

為何繞過成為可能

理解這些限制解釋為何越獄有效：

許多可能輸入：訓練只涵蓋少量
底層能力保留：等待被引發
獎勵模型可利用：於獎勵中找洞
多目標衝突：安全與其他目標鬥爭

對紅隊演練的意涵

紅隊員應：

尋找分佈外輸入
於虛構／學術框架中測試
利用合作傾向
使用新穎攻擊類別
多輪建立脈絡以壓制安全

對防禦的意涵

有效防禦必須：

接受「永不完美」現實
實作多層方法
對新攻擊類別持續對抗訓練
將安全訓練與外部護欄結合
定期紅隊演練驗證

新興方向

刪除式訓練：移除而非壓制能力
機制可解釋性：理解並直接操控內部
憲法式 AI：明確原則取代隱含偏好
分離安全與能力：專用安全模型

參考文獻

Ouyang et al. (2022). "InstructGPT"
Bai et al. (2022). "Constitutional AI"
Wei et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
Qi et al. (2023). "Fine-tuning Aligned Language Models Compromises Safety"

Knowledge Check

為何安全訓練永遠不完美？

理解大型語言模型安全訓練

概覽

安全訓練試圖教什麼

拒答訓練

有用性訓練

對齊訓練

核心限制

限制 1：分佈敏感度

限制 2：淺層表徵

限制 3：競爭目標

限制 4：缺乏根本理解

為何繞過成為可能

對紅隊演練的意涵

對防禦的意涵

新興方向

相關主題

參考文獻

理解大型語言模型安全訓練

概覽

安全訓練試圖教什麼

拒答訓練

有用性訓練

對齊訓練

核心限制

限制 1：分佈敏感度

限制 2：淺層表徵

限制 3：競爭目標

限制 4：缺乏根本理解

為何繞過成為可能

對紅隊演練的意涵

對防禦的意涵

新興方向

相關主題

參考文獻

理解大型語言模型安全訓練

相關文章

理解大型語言模型安全訓練

相關文章