安全訓練方法
中級2 分鐘閱讀更新於 2026-03-20
安全訓練方法概覽,包含 RLHF、憲法式 AI、DPO 及其從紅隊視角的限制。
概覽
多種方法用於訓練 LLM 以安全行為。每方法有獨特優勢、限制與攻擊面。本頁比較主要方法並討論紅隊視角的意涵。
RLHF(Reinforcement Learning from Human Feedback)
運作:人類對模型輸出排序,獎勵模型學習預測偏好,RL 微調模型以最大化獎勵。
優勢:
- 直接從人類偏好學習
- 規模化以大量資料
- 可應用於多個安全維度
限制:
- 獎勵模型可被利用(獎勵駭客)
- 僅於訓練分佈內有效
- 薄層安全——底層能力保留
- 需要大量標記資料
攻擊:分佈外輸入、多範例越獄、微調攻擊
憲法式 AI(Constitutional AI,Anthropic)
運作:AI 模型以一組原則(「憲法」)自我評估輸出,然後修正不符原則的輸出。AI 產生訓練資料減少對人類標記的依賴。
優勢:
- 較少人類標記需求
- 明確、透明的原則
- 可處理人類可能遺漏的情境
- 可快速迭代(改變憲法 → 重新訓練)
限制:
- 仍於薄層安全類別
- 憲法本身可能有缺陷或不完整
- 自我評估可能被偏差
- 仍可被分佈外攻擊
攻擊:憲法特定繞過、自我評估操控
DPO(Direct Preference Optimization)
運作:直接從偏好資料最佳化模型,繞過獎勵模型訓練階段。
優勢:
- 較簡單訓練管線
- 無獎勵模型的獎勵駭客
- 通常更穩定
限制:
- 仍於薄層安全類別
- 繼承 RLHF 的分佈限制
- 對偏好資料品質敏感
攻擊:類似 RLHF 攻擊(分佈外、多範例、微調)
KTO(Kahneman-Tversky Optimization)
運作:基於期望理論,最大化期望值的效用轉換。
優勢:
- 可於不平衡資料良好運作
- 較穩定於部分偏好資料
限制:
- 較新,較少深入研究
- 仍薄層安全
對抗訓練
運作:將已知攻擊納入訓練資料,模型學會對它們韌性。
優勢:
- 直接針對已知攻擊類別
- 可結合其他方法
限制:
- 只對已訓練攻擊有效
- 新穎攻擊可能突破
- 於資料成本的擴充挑戰
刪除式訓練(新興)
運作:積極從模型權重移除有害能力,而非僅壓制它們。
優勢:
- 可能消除而非壓制
- 於分佈外韌性較高
限制:
- 仍為研究——有效性未完全確立
- 可能影響合法能力
- 技術挑戰性高
比較表
| 方法 | 需人類標記 | 可擴充性 | 分佈外韌性 | 微調抗拒 |
|---|---|---|---|---|
| RLHF | 高 | 中 | 低 | 低 |
| 憲法式 AI | 中 | 高 | 中 | 中 |
| DPO | 中-高 | 高 | 低 | 低 |
| 對抗訓練 | 中 | 中 | 中-高 | 中 |
| 刪除式 | 中 | 低(研究中) | 高(可能) | 高(可能) |
組合方法
生產部署常結合方法:
- RLHF + 憲法式 AI + 對抗訓練(Anthropic 方法)
- RLHF + 對抗性資料增強(OpenAI 方法)
- DPO + 多階段微調(許多開源模型)
紅隊演練意涵
理解使用的方法引導攻擊:
- RLHF 主導:分佈外、多範例、微調
- 憲法式 AI:憲法特定繞過、自我評估操控
- 重對抗訓練:探索新穎攻擊類別
- 組合:系統性測試每方法的弱點
相關主題
參考文獻
- Ouyang et al. (2022). "InstructGPT" (RLHF)
- Bai et al. (2022). "Constitutional AI" (Anthropic)
- Rafailov et al. (2023). "Direct Preference Optimization" (DPO)
- Ethayarajh et al. (2024). "KTO"
Knowledge Check
為何生產 LLM 部署常結合多種安全訓練方法?