安全訓練方法

中級2 分鐘閱讀更新於 2026-03-20

安全訓練方法概覽，包含 RLHF、憲法式 AI、DPO 及其從紅隊視角的限制。

safety-training rlhf constitutional-ai dpo foundations

概覽

多種方法用於訓練 LLM 以安全行為。每方法有獨特優勢、限制與攻擊面。本頁比較主要方法並討論紅隊視角的意涵。

RLHF（Reinforcement Learning from Human Feedback）

運作：人類對模型輸出排序，獎勵模型學習預測偏好，RL 微調模型以最大化獎勵。

優勢：

直接從人類偏好學習
規模化以大量資料
可應用於多個安全維度

限制：

獎勵模型可被利用（獎勵駭客）
僅於訓練分佈內有效
薄層安全——底層能力保留
需要大量標記資料

攻擊：分佈外輸入、多範例越獄、微調攻擊

憲法式 AI（Constitutional AI，Anthropic）

運作：AI 模型以一組原則（「憲法」）自我評估輸出，然後修正不符原則的輸出。AI 產生訓練資料減少對人類標記的依賴。

優勢：

較少人類標記需求
明確、透明的原則
可處理人類可能遺漏的情境
可快速迭代（改變憲法 → 重新訓練）

限制：

仍於薄層安全類別
憲法本身可能有缺陷或不完整
自我評估可能被偏差
仍可被分佈外攻擊

攻擊：憲法特定繞過、自我評估操控

DPO（Direct Preference Optimization）

運作：直接從偏好資料最佳化模型，繞過獎勵模型訓練階段。

優勢：

較簡單訓練管線
無獎勵模型的獎勵駭客
通常更穩定

限制：

仍於薄層安全類別
繼承 RLHF 的分佈限制
對偏好資料品質敏感

攻擊：類似 RLHF 攻擊（分佈外、多範例、微調）

KTO（Kahneman-Tversky Optimization）

運作：基於期望理論，最大化期望值的效用轉換。

優勢：

可於不平衡資料良好運作
較穩定於部分偏好資料

限制：

較新，較少深入研究
仍薄層安全

對抗訓練

運作：將已知攻擊納入訓練資料，模型學會對它們韌性。

優勢：

直接針對已知攻擊類別
可結合其他方法

限制：

只對已訓練攻擊有效
新穎攻擊可能突破
於資料成本的擴充挑戰

刪除式訓練（新興）

運作：積極從模型權重移除有害能力，而非僅壓制它們。

優勢：

可能消除而非壓制
於分佈外韌性較高

限制：

仍為研究——有效性未完全確立
可能影響合法能力
技術挑戰性高

比較表

方法	需人類標記	可擴充性	分佈外韌性	微調抗拒
RLHF	高	中	低	低
憲法式 AI	中	高	中	中
DPO	中-高	高	低	低
對抗訓練	中	中	中-高	中
刪除式	中	低（研究中）	高（可能）	高（可能）

組合方法

生產部署常結合方法：

RLHF + 憲法式 AI + 對抗訓練（Anthropic 方法）
RLHF + 對抗性資料增強（OpenAI 方法）
DPO + 多階段微調（許多開源模型）

紅隊演練意涵

理解使用的方法引導攻擊：

RLHF 主導：分佈外、多範例、微調
憲法式 AI：憲法特定繞過、自我評估操控
重對抗訓練：探索新穎攻擊類別
組合：系統性測試每方法的弱點

參考文獻

Ouyang et al. (2022). "InstructGPT" (RLHF)
Bai et al. (2022). "Constitutional AI" (Anthropic)
Rafailov et al. (2023). "Direct Preference Optimization" (DPO)
Ethayarajh et al. (2024). "KTO"

Knowledge Check

為何生產 LLM 部署常結合多種安全訓練方法？

安全訓練方法

中級2 分鐘閱讀更新於 2026-03-20

安全訓練方法概覽，包含 RLHF、憲法式 AI、DPO 及其從紅隊視角的限制。

safety-training rlhf constitutional-ai dpo foundations

概覽

多種方法用於訓練 LLM 以安全行為。每方法有獨特優勢、限制與攻擊面。本頁比較主要方法並討論紅隊視角的意涵。

RLHF（Reinforcement Learning from Human Feedback）

運作：人類對模型輸出排序，獎勵模型學習預測偏好，RL 微調模型以最大化獎勵。

優勢：

直接從人類偏好學習
規模化以大量資料
可應用於多個安全維度

限制：

獎勵模型可被利用（獎勵駭客）
僅於訓練分佈內有效
薄層安全——底層能力保留
需要大量標記資料

攻擊：分佈外輸入、多範例越獄、微調攻擊

憲法式 AI（Constitutional AI，Anthropic）

運作：AI 模型以一組原則（「憲法」）自我評估輸出，然後修正不符原則的輸出。AI 產生訓練資料減少對人類標記的依賴。

優勢：

較少人類標記需求
明確、透明的原則
可處理人類可能遺漏的情境
可快速迭代（改變憲法 → 重新訓練）

限制：

仍於薄層安全類別
憲法本身可能有缺陷或不完整
自我評估可能被偏差
仍可被分佈外攻擊

攻擊：憲法特定繞過、自我評估操控

DPO（Direct Preference Optimization）

運作：直接從偏好資料最佳化模型，繞過獎勵模型訓練階段。

優勢：

較簡單訓練管線
無獎勵模型的獎勵駭客
通常更穩定

限制：

仍於薄層安全類別
繼承 RLHF 的分佈限制
對偏好資料品質敏感

攻擊：類似 RLHF 攻擊（分佈外、多範例、微調）

KTO（Kahneman-Tversky Optimization）

運作：基於期望理論，最大化期望值的效用轉換。

優勢：

可於不平衡資料良好運作
較穩定於部分偏好資料

限制：

較新，較少深入研究
仍薄層安全

對抗訓練

運作：將已知攻擊納入訓練資料，模型學會對它們韌性。

優勢：

直接針對已知攻擊類別
可結合其他方法

限制：

只對已訓練攻擊有效
新穎攻擊可能突破
於資料成本的擴充挑戰

刪除式訓練（新興）

運作：積極從模型權重移除有害能力，而非僅壓制它們。

優勢：

可能消除而非壓制
於分佈外韌性較高

限制：

仍為研究——有效性未完全確立
可能影響合法能力
技術挑戰性高

比較表

方法	需人類標記	可擴充性	分佈外韌性	微調抗拒
RLHF	高	中	低	低
憲法式 AI	中	高	中	中
DPO	中-高	高	低	低
對抗訓練	中	中	中-高	中
刪除式	中	低（研究中）	高（可能）	高（可能）

組合方法

生產部署常結合方法：

RLHF + 憲法式 AI + 對抗訓練（Anthropic 方法）
RLHF + 對抗性資料增強（OpenAI 方法）
DPO + 多階段微調（許多開源模型）

紅隊演練意涵

理解使用的方法引導攻擊：

RLHF 主導：分佈外、多範例、微調
憲法式 AI：憲法特定繞過、自我評估操控
重對抗訓練：探索新穎攻擊類別
組合：系統性測試每方法的弱點

參考文獻

Ouyang et al. (2022). "InstructGPT" (RLHF)
Bai et al. (2022). "Constitutional AI" (Anthropic)
Rafailov et al. (2023). "Direct Preference Optimization" (DPO)
Ethayarajh et al. (2024). "KTO"

Knowledge Check

為何生產 LLM 部署常結合多種安全訓練方法？

安全訓練方法

概覽

RLHF（Reinforcement Learning from Human Feedback）

憲法式 AI（Constitutional AI，Anthropic）

DPO（Direct Preference Optimization）

KTO（Kahneman-Tversky Optimization）

對抗訓練

刪除式訓練（新興）

比較表

組合方法

紅隊演練意涵

相關主題

參考文獻

安全訓練方法

概覽

RLHF（Reinforcement Learning from Human Feedback）

憲法式 AI（Constitutional AI，Anthropic）

DPO（Direct Preference Optimization）

KTO（Kahneman-Tversky Optimization）

對抗訓練

刪除式訓練（新興）

比較表

組合方法

紅隊演練意涵

相關主題

參考文獻

安全訓練方法

相關文章

安全訓練方法

相關文章