RLHF 與安全對齊
中級2 分鐘閱讀更新於 2026-03-20
理解 RLHF 安全訓練,以及它為何建立可繞過而非根本性的安全層。
概覽
RLHF(Reinforcement Learning from Human Feedback)是現代大型語言模型安全對齊的主要方法——教模型拒絕有害請求、遵循指令、產生符合人類偏好的輸出。理解 RLHF 對紅隊員至關重要:它同時是安全的主要機制,也是最根本漏洞的來源。
RLHF 運作原理
基本流程
- 預訓練:模型於大量文字上訓練基本語言能力
- 監督微調(SFT):於精選範例訓練模型執行指令
- 獎勵模型訓練:人類對模型輸出排序;獎勵模型學習預測人類偏好
- RL 最佳化:使用 PPO 或類似算法,最佳化模型以最大化獎勵模型分數
安全訓練
於 RLHF 期間,人類評估者標記:
- 回答有害請求 = 低獎勵
- 拒答有害請求 = 高獎勵
- 有用回答合法請求 = 高獎勵
- 過度拒答 = 低獎勵(避免過度保守)
獎勵模型學習此偏好,RL 微調使基礎模型於此獎勵上最佳化。結果:模型「學會」拒絕有害請求。
為何 RLHF 是薄層安全
研究(特別是 Wei et al. 2023、Qi et al. 2023)揭示 RLHF 訓練的安全是薄層而非根本改變:
發現
- 底層能力保留:模型於預訓練中學得的能力於 RLHF 期間未被移除——僅被「壓制」於典型輸入下不顯現
- 微調可快速移除:少量例子微調可大幅削弱安全訓練(Qi et al. 2023 顯示 10 例即可)
- 分佈外攻擊:RLHF 訓練分佈外的輸入(編碼、稀有語言、虛構框架)常繞過安全
- 上下文學習覆寫:多範例情境可覆寫 RLHF 訓練(Anthropic 2024 "Many-shot Jailbreaking")
原因
- RLHF 只於安全敏感情境的小子集訓練
- 獎勵模型本身可被利用(獎勵駭客)
- 基礎模型的廣泛能力使任何安全都處於壓倒劣勢
- 「拒答」是學得行為,可被競爭目標壓制
對攻擊的意涵
理解 RLHF 形塑攻擊策略:
利用分佈外
- 以 RLHF 訓練不涵蓋的形式遞送請求(編碼、稀有語言、虛構)
- 使用 RLHF 訓練未預見的新穎格式
使用上下文壓制安全
- Many-shot 範例可覆寫學得拒答
- 持續的「合作」脈絡壓制安全訊號
目標「薄」層
- 不試圖改變底層能力(不可能於推論時)
- 試圖引發已存在但通常被壓制的能力
對防禦的意涵
RLHF 限制驅動分層防禦:
- 深度 RLHF:持續對抗訓練,涵蓋更多攻擊變體
- 憲法式 AI(Anthropic):模型於訓練期間自我評估與修正
- 輸入 / 輸出過濾:補充 RLHF 的外部檢查
- 分散架構:多模型與工具以降低單一模型失敗影響
新興研究方向
- 刪除式訓練:永久移除能力而非僅壓制
- 解釋性基礎防禦:直接操控模型內部而非僅行為
- RLHF 替代方案:DPO、KTO、其他偏好學習方法
- 結合憲法與 RLHF:多層方法
紅隊演練意涵
紅隊員應:
- 理解目標模型的 RLHF 訓練強度
- 測試分佈外攻擊(編碼、虛構、多範例)
- 評估 RLHF 對對抗性微調的韌性(若白箱)
- 報告 RLHF 失敗並建議層級防禦
相關主題
參考文獻
- Ouyang et al. (2022). "Training language models to follow instructions with human feedback"
- Wei et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
- Qi et al. (2023). "Fine-tuning Aligned Language Models Compromises Safety"
- Anil et al. (2024). "Many-shot Jailbreaking"
Knowledge Check
為何 RLHF 被稱為「薄層」安全?