RLHF 與安全對齊

中級2 分鐘閱讀更新於 2026-03-20

理解 RLHF 安全訓練，以及它為何建立可繞過而非根本性的安全層。

rlhf safety-alignment foundations training

概覽

RLHF（Reinforcement Learning from Human Feedback）是現代大型語言模型安全對齊的主要方法——教模型拒絕有害請求、遵循指令、產生符合人類偏好的輸出。理解 RLHF 對紅隊員至關重要：它同時是安全的主要機制，也是最根本漏洞的來源。

RLHF 運作原理

基本流程

預訓練：模型於大量文字上訓練基本語言能力
監督微調（SFT）：於精選範例訓練模型執行指令
獎勵模型訓練：人類對模型輸出排序；獎勵模型學習預測人類偏好
RL 最佳化：使用 PPO 或類似算法，最佳化模型以最大化獎勵模型分數

安全訓練

於 RLHF 期間，人類評估者標記：

回答有害請求 = 低獎勵
拒答有害請求 = 高獎勵
有用回答合法請求 = 高獎勵
過度拒答 = 低獎勵（避免過度保守）

獎勵模型學習此偏好，RL 微調使基礎模型於此獎勵上最佳化。結果：模型「學會」拒絕有害請求。

為何 RLHF 是薄層安全

研究（特別是 Wei et al. 2023、Qi et al. 2023）揭示 RLHF 訓練的安全是薄層而非根本改變：

發現

底層能力保留：模型於預訓練中學得的能力於 RLHF 期間未被移除——僅被「壓制」於典型輸入下不顯現
微調可快速移除：少量例子微調可大幅削弱安全訓練（Qi et al. 2023 顯示 10 例即可）
分佈外攻擊：RLHF 訓練分佈外的輸入（編碼、稀有語言、虛構框架）常繞過安全
上下文學習覆寫：多範例情境可覆寫 RLHF 訓練（Anthropic 2024 "Many-shot Jailbreaking"）

原因

RLHF 只於安全敏感情境的小子集訓練
獎勵模型本身可被利用（獎勵駭客）
基礎模型的廣泛能力使任何安全都處於壓倒劣勢
「拒答」是學得行為，可被競爭目標壓制

對攻擊的意涵

理解 RLHF 形塑攻擊策略：

利用分佈外

以 RLHF 訓練不涵蓋的形式遞送請求（編碼、稀有語言、虛構）
使用 RLHF 訓練未預見的新穎格式

使用上下文壓制安全

Many-shot 範例可覆寫學得拒答
持續的「合作」脈絡壓制安全訊號

目標「薄」層

不試圖改變底層能力（不可能於推論時）
試圖引發已存在但通常被壓制的能力

對防禦的意涵

RLHF 限制驅動分層防禦：

深度 RLHF：持續對抗訓練，涵蓋更多攻擊變體
憲法式 AI（Anthropic）：模型於訓練期間自我評估與修正
輸入 / 輸出過濾：補充 RLHF 的外部檢查
分散架構：多模型與工具以降低單一模型失敗影響

新興研究方向

刪除式訓練：永久移除能力而非僅壓制
解釋性基礎防禦：直接操控模型內部而非僅行為
RLHF 替代方案：DPO、KTO、其他偏好學習方法
結合憲法與 RLHF：多層方法

紅隊演練意涵

紅隊員應：

理解目標模型的 RLHF 訓練強度
測試分佈外攻擊（編碼、虛構、多範例）
評估 RLHF 對對抗性微調的韌性（若白箱）
報告 RLHF 失敗並建議層級防禦

參考文獻

Ouyang et al. (2022). "Training language models to follow instructions with human feedback"
Wei et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
Qi et al. (2023). "Fine-tuning Aligned Language Models Compromises Safety"
Anil et al. (2024). "Many-shot Jailbreaking"

Knowledge Check

為何 RLHF 被稱為「薄層」安全？

RLHF 與安全對齊

中級2 分鐘閱讀更新於 2026-03-20

理解 RLHF 安全訓練，以及它為何建立可繞過而非根本性的安全層。

rlhf safety-alignment foundations training

概覽

RLHF 運作原理

基本流程

預訓練：模型於大量文字上訓練基本語言能力
監督微調（SFT）：於精選範例訓練模型執行指令
獎勵模型訓練：人類對模型輸出排序；獎勵模型學習預測人類偏好
RL 最佳化：使用 PPO 或類似算法，最佳化模型以最大化獎勵模型分數

安全訓練

於 RLHF 期間，人類評估者標記：

回答有害請求 = 低獎勵
拒答有害請求 = 高獎勵
有用回答合法請求 = 高獎勵
過度拒答 = 低獎勵（避免過度保守）

獎勵模型學習此偏好，RL 微調使基礎模型於此獎勵上最佳化。結果：模型「學會」拒絕有害請求。

為何 RLHF 是薄層安全

研究（特別是 Wei et al. 2023、Qi et al. 2023）揭示 RLHF 訓練的安全是薄層而非根本改變：

發現

底層能力保留：模型於預訓練中學得的能力於 RLHF 期間未被移除——僅被「壓制」於典型輸入下不顯現
微調可快速移除：少量例子微調可大幅削弱安全訓練（Qi et al. 2023 顯示 10 例即可）
分佈外攻擊：RLHF 訓練分佈外的輸入（編碼、稀有語言、虛構框架）常繞過安全
上下文學習覆寫：多範例情境可覆寫 RLHF 訓練（Anthropic 2024 "Many-shot Jailbreaking"）

原因

RLHF 只於安全敏感情境的小子集訓練
獎勵模型本身可被利用（獎勵駭客）
基礎模型的廣泛能力使任何安全都處於壓倒劣勢
「拒答」是學得行為，可被競爭目標壓制

對攻擊的意涵

理解 RLHF 形塑攻擊策略：

利用分佈外

以 RLHF 訓練不涵蓋的形式遞送請求（編碼、稀有語言、虛構）
使用 RLHF 訓練未預見的新穎格式

使用上下文壓制安全

Many-shot 範例可覆寫學得拒答
持續的「合作」脈絡壓制安全訊號

目標「薄」層

不試圖改變底層能力（不可能於推論時）
試圖引發已存在但通常被壓制的能力

對防禦的意涵

RLHF 限制驅動分層防禦：

深度 RLHF：持續對抗訓練，涵蓋更多攻擊變體
憲法式 AI（Anthropic）：模型於訓練期間自我評估與修正
輸入 / 輸出過濾：補充 RLHF 的外部檢查
分散架構：多模型與工具以降低單一模型失敗影響

新興研究方向

刪除式訓練：永久移除能力而非僅壓制
解釋性基礎防禦：直接操控模型內部而非僅行為
RLHF 替代方案：DPO、KTO、其他偏好學習方法
結合憲法與 RLHF：多層方法

紅隊演練意涵

紅隊員應：

理解目標模型的 RLHF 訓練強度
測試分佈外攻擊（編碼、虛構、多範例）
評估 RLHF 對對抗性微調的韌性（若白箱）
報告 RLHF 失敗並建議層級防禦

參考文獻

Ouyang et al. (2022). "Training language models to follow instructions with human feedback"
Wei et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
Qi et al. (2023). "Fine-tuning Aligned Language Models Compromises Safety"
Anil et al. (2024). "Many-shot Jailbreaking"

Knowledge Check

為何 RLHF 被稱為「薄層」安全？

RLHF 與安全對齊

概覽

RLHF 運作原理

基本流程

安全訓練

為何 RLHF 是薄層安全

發現

原因

對攻擊的意涵

利用分佈外

使用上下文壓制安全

目標「薄」層

對防禦的意涵

新興研究方向

紅隊演練意涵

相關主題

參考文獻

RLHF 與安全對齊

概覽

RLHF 運作原理

基本流程

安全訓練

為何 RLHF 是薄層安全

發現

原因

對攻擊的意涵

利用分佈外

使用上下文壓制安全

目標「薄」層

對防禦的意涵

新興研究方向

紅隊演練意涵

相關主題

參考文獻

RLHF 與安全對齊

相關文章

RLHF 與安全對齊

相關文章