理解大型語言模型安全訓練
中級1 分鐘閱讀更新於 2026-03-20
安全訓練如何運作,包含 RLHF、DPO、憲法式 AI,以及為何它可被繞過。
概覽
本頁提供安全訓練如何運作的深入概念性概覽——不僅特定方法(RLHF、DPO、憲法式 AI),更是核心機制:模型學得什麼、它們沒學得什麼,以及為何學得的總是不完整。理解這些基礎使紅隊員能預測模型行為並設計有效攻擊。
安全訓練試圖教什麼
拒答訓練
- 辨識有害請求
- 提供拒答回應
- 維持拒答於變體下
有用性訓練
- 於合法請求有用回答
- 於模糊情境平衡幫助與安全
- 避免過度保守拒答
對齊訓練
- 遵循人類偏好
- 避免誤導或有偏
- 遵循指令階層
核心限制
限制 1:分佈敏感度
安全訓練於訓練分佈最強。分佈外輸入(新穎措辭、編碼、罕見脈絡)於安全覆蓋薄弱。
意涵:編碼攻擊、虛構框架、稀有語言常繞過安全
限制 2:淺層表徵
安全訓練不根本改變模型能力——它教模型於特定情境下不表達某些能力。能力持續於權重中,僅被壓制。
意涵:微調可快速揭露隱藏能力;分佈外情境可引發它們
限制 3:競爭目標
模型被訓練為安全的同時,也被訓練為合作、遵循指令、有用。這些目標可衝突——攻擊者可引發模型中競爭目標的「鬥爭」。
意涵:社交工程、角色扮演可利用此張力使模型優先合作勝過安全
限制 4:缺乏根本理解
模型不真正「理解」為何某些內容有害——它們識別此訓練期間學得的模式。新穎有害情境可能通過因為它們不匹配學得模式。
意涵:新穎攻擊面、組合攻擊、持續演進的威脅
為何繞過成為可能
理解這些限制解釋為何越獄有效:
- 許多可能輸入:訓練只涵蓋少量
- 底層能力保留:等待被引發
- 獎勵模型可利用:於獎勵中找洞
- 多目標衝突:安全與其他目標鬥爭
對紅隊演練的意涵
紅隊員應:
- 尋找分佈外輸入
- 於虛構/學術框架中測試
- 利用合作傾向
- 使用新穎攻擊類別
- 多輪建立脈絡以壓制安全
對防禦的意涵
有效防禦必須:
- 接受「永不完美」現實
- 實作多層方法
- 對新攻擊類別持續對抗訓練
- 將安全訓練與外部護欄結合
- 定期紅隊演練驗證
新興方向
- 刪除式訓練:移除而非壓制能力
- 機制可解釋性:理解並直接操控內部
- 憲法式 AI:明確原則取代隱含偏好
- 分離安全與能力:專用安全模型
相關主題
參考文獻
- Ouyang et al. (2022). "InstructGPT"
- Bai et al. (2022). "Constitutional AI"
- Wei et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
- Qi et al. (2023). "Fine-tuning Aligned Language Models Compromises Safety"
Knowledge Check
為何安全訓練永遠不完美?