DPO 特有攻擊

專家4 分鐘閱讀更新於 2026-03-15

直接偏好最佳化 (DPO) 獨有漏洞——參考模型操控、KL 散度利用,以及 DPO 數學框架如何造就標準 RLHF 中不存在的攻擊面。

dpo direct-preference-optimization reference-model kl-divergence alignment-attack fine-tuning-security

直接偏好最佳化 (DPO) 作為基於 PPO 的 RLHF 之更簡單、更穩定替代方案,已迅速獲得採用。透過消除顯式獎勵模型、直接在偏好資料上最佳化策略,DPO 降低訓練複雜度與運算成本。然而,這種簡化也造就了標準 RLHF 不存在的獨特攻擊面。

DPO 的漏洞源於其數學框架:隱式獎勵由策略模型與參考模型之間的對數機率比所定義。這意味著參考模型是關鍵安全元件——入侵它會使整個最佳化地形偏移。此外,偏好資料與策略最佳化之間的直接連結意味著偏好投毒對模型行為有即時、不經中介的影響。

DPO 目標函式

數學框架

DPO 對每個偏好對(提示詞 x、偏好回應 y_w、不偏好回應 y_l)最佳化下列目標:

L_DPO = -log σ(β * (log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)))

其中:

π_θ 為被訓練的策略模型
π_ref 為參考模型(通常為 SFT 模型)
β 為控制最佳化強度的溫度參數
σ 為 sigmoid 函式

與安全相關的元件

元件	角色	攻擊面
π_ref(參考模型)	定義獎勵計算的基準	操控此處會改變每個偏好對的隱式獎勵
β(溫度)	控制偏好對策略的影響強度	較高的 β 放大受污染偏好的影響
偏好對 (y_w, y_l)	定義何種行為被偏好	投毒直接影響策略梯度
對數機率比	隱式獎勵訊號	可透過符元層級機率操控被鑽漏洞

參考模型操控

參考模型的角色

DPO 中的參考模型作為最佳化的錨點。回應的隱式獎勵與策略模型相對於參考模型使該回應變得多高的機率成正比。變更參考模型就變更了最佳化視為「正常」行為的內容:

參考模型狀態	對 DPO 訓練的影響
乾淨 SFT 模型(預期)	DPO 依據偏好學習在 SFT 模型的行為上改進
安全退化模型	DPO 將不安全行為視為基準;「改進」未必能恢復安全性
能力偏移模型	DPO 最佳化相對於扭曲基準發生
對抗性精心設計模型	最佳化地形被操控以產生攻擊者選定行為

攻擊情境

DPO 前參考入侵
若攻擊者可在 DPO 訓練開始前修改參考模型,便能使整個最佳化地形偏移。例如,若參考模型已被安全退化,DPO 訓練將不會恢復安全性——它將相對於退化基準最佳化。
參考模型替換
在開源 DPO 訓練中,參考模型由從業者指定。能影響訓練設定的攻擊者(例如透過受污染的訓練配方或社交工程)可指定不同的參考模型。
檢查點操控
參考模型通常是 SFT 模型的儲存檢查點。若攻擊者能修改此檢查點——透過對模型儲存的供應鏈攻擊、訓練基礎設施入侵或受污染的模型集散下載——便能控制 DPO 參考。

影響分析

操控類型	參考模型變化	DPO 訓練結果
移除安全性	參考模型安全性被削弱	DPO 將削弱安全性維持為基準;強化安全性的偏好可能部分恢復,但起點已受損
注入偏誤	參考模型有系統性偏誤	DPO 將偏誤保留為基準;偏好資料可能未涵蓋偏誤維度
能力抑制	參考模型在特定區域能力降低	DPO 無法改進超越由參考模型限制所定義的能力上限
插入後門	參考模型包含後門	DPO 可能學會保留後門行為作為基準的一部分

KL 散度利用

DPO 中的 KL 懲罰

DPO 目標隱式包含 KL 散度懲罰,防止策略過度偏離參考模型。β 參數控制此約束強度:

β 值	KL 約束	影響
低 (0.01-0.05)	弱	策略可顯著偏離參考;獎勵駭入風險較高但對齊改進能力也較高
中 (0.1-0.5)	中等	對齊改進與穩定性之間平衡的取捨
高 (1.0+)	強	策略維持接近參考;限制改進與利用

利用策略

策略	運作方式	影響
β 操控	說服從業者使用低 β 值(例如透過在低 β 下顯示更佳效能的基準聲明)	允許策略更偏離參考,放大任何投毒的影響
參考-策略間隙利用	建立參考與策略在特定輸入上有大差異的情境	強迫最佳化在攻擊者選定輸入上做出大更新
分布偏移	使用與參考模型訓練資料顯著不同分布的偏好資料	建立攻擊者可利用的不可預測最佳化動態

隱式獎勵及其漏洞

DPO 的隱式獎勵為:

r(x, y) = β * log(π_θ(y|x) / π_ref(y|x))

此獎勵可被鑽漏洞:

鑽漏洞策略	機制
符元層級操控	設計使特定符元在策略與參考間有極端對數機率差異的回應
長度利用	較長回應累積更多對數機率差異
罕見符元插入	包含參考模型指派極低機率的符元

DPO 變體及其漏洞

IPO (Identity Preference Optimization)

IPO 修改 DPO 損失以處理特定的過度最佳化失效:

IPO 性質	安全意涵
比 DPO 更能抵抗過度最佳化	較難透過極端最佳化利用
仍使用參考模型	參考模型操控攻擊仍適用
對 β 有不同敏感度	可能需要不同攻擊參數

KTO (Kahneman-Tversky Optimization)

KTO 使用不成對的正負範例而非偏好對:

KTO 性質	安全意涵
不需成對比較	更易投毒——只需錯標個別回應
對正負範例不對稱處理	正與負範例的投毒策略不同
不需參考模型(某些公式化)	消除參考模型操控但可能引入其他漏洞

ORPO (Odds Ratio Preference Optimization)

ORPO 性質	安全意涵
結合 SFT 與偏好最佳化	管線階段較少,減少供應鏈攻擊面
無參考模型	消除參考模型操控
基於勝率比的最佳化	不同的數學性質可能引入新漏洞

攻擊方法論

實務 DPO 攻擊工作流

針對評估 DPO 訓練模型的紅隊:

辨識參考模型
判定何種模型被用作 DPO 參考。此資訊可能在模型卡片、訓練設定,或可透過行為比較發現。
評估參考模型完整性
評估參考模型是否已從其預期狀態被修改。將其行為與權重和已知良好副本比較。
分析偏好資料
若可存取,檢視偏好資料是否有投毒跡象:系統性偏誤、不尋常標註者模式或統計異常。
測試 β 敏感度
生成測試模型行為是否對會與參考模型產生大對數機率比之輸入敏感的回應。
探測參考模型遺留物
測試模型是否保留應被 DPO 訓練修改的、來自參考模型的特定行為——這可能指示參考模型入侵。

DPO 操控指標

指標	它暗示什麼
模型行為與已知受入侵參考模型密切相符	參考模型操控
模型對特定符元或模式顯示極端敏感度	符元層級對數機率利用
模型的隱式獎勵地形有不尋常拓撲	β 或最佳化操控
安全行為符合參考模型而非偏好資料隱含的安全等級	參考模型主導 DPO 訓練
模型在不同溫度下顯示與正常 DPO 訓練不一致的不同行為	KL 約束利用

防禦策略

參考模型安全

防禦	機制
加密驗證	雜湊與簽署參考模型權重;DPO 訓練前驗證
參考模型評估	使用前對參考模型執行安全與能力基準測試
多個參考點	使用整合式參考模型降低單點故障風險
參考模型出處	記錄參考模型的完整訓練歷史

DPO 訓練防禦

防禦	機制
具安全約束的 β 調優	選擇 β 以平衡最佳化強度與安全保留
偏好資料稽核	對偏好資料做系統性偏誤的統計分析
隱式獎勵監控	訓練期間追蹤隱式獎勵的分布以發現異常
訓練後安全評估	DPO 訓練後進行完整安全測試

參考文獻

"Direct Preference Optimization: Your Language Model is Secretly a Reward Model" - Rafailov, R., et al. (2023) - 基礎性 DPO 論文
"A General Theoretical Paradigm to Understand Learning from Human Feedback" - Azar, M., et al. (2023) - IPO 與 DPO 限制的理論分析
"KTO: Model Alignment as Prospect Theoretic Optimization" - Ethayarajh, K., et al. (2024) - KTO 作為 DPO 替代方案
"ORPO: Monolithic Preference Optimization without Reference Model" - Hong, J., et al. (2024) - 無參考模型的偏好最佳化
"Scaling Laws for Reward Model Overoptimization" - Gao, L., et al. (2023) - 適用於 DPO 的過度最佳化動態

Knowledge Check

為何參考模型操控在 DPO 中比起其他形式的訓練資料投毒,是獨特強大的攻擊向量?

DPO 特有攻擊

專家4 分鐘閱讀更新於 2026-03-15

直接偏好最佳化 (DPO) 獨有漏洞——參考模型操控、KL 散度利用,以及 DPO 數學框架如何造就標準 RLHF 中不存在的攻擊面。

dpo direct-preference-optimization reference-model kl-divergence alignment-attack fine-tuning-security

DPO 目標函式

數學框架

DPO 對每個偏好對(提示詞 x、偏好回應 y_w、不偏好回應 y_l)最佳化下列目標:

L_DPO = -log σ(β * (log π_θ(y_w|x)/π_ref(y_w|x) - log π_θ(y_l|x)/π_ref(y_l|x)))

其中:

π_θ 為被訓練的策略模型
π_ref 為參考模型(通常為 SFT 模型)
β 為控制最佳化強度的溫度參數
σ 為 sigmoid 函式

與安全相關的元件

元件	角色	攻擊面
π_ref(參考模型)	定義獎勵計算的基準	操控此處會改變每個偏好對的隱式獎勵
β(溫度)	控制偏好對策略的影響強度	較高的 β 放大受污染偏好的影響
偏好對 (y_w, y_l)	定義何種行為被偏好	投毒直接影響策略梯度
對數機率比	隱式獎勵訊號	可透過符元層級機率操控被鑽漏洞

參考模型操控

參考模型的角色

參考模型狀態	對 DPO 訓練的影響
乾淨 SFT 模型(預期)	DPO 依據偏好學習在 SFT 模型的行為上改進
安全退化模型	DPO 將不安全行為視為基準;「改進」未必能恢復安全性
能力偏移模型	DPO 最佳化相對於扭曲基準發生
對抗性精心設計模型	最佳化地形被操控以產生攻擊者選定行為

攻擊情境

DPO 前參考入侵
若攻擊者可在 DPO 訓練開始前修改參考模型,便能使整個最佳化地形偏移。例如,若參考模型已被安全退化,DPO 訓練將不會恢復安全性——它將相對於退化基準最佳化。
參考模型替換
在開源 DPO 訓練中,參考模型由從業者指定。能影響訓練設定的攻擊者(例如透過受污染的訓練配方或社交工程)可指定不同的參考模型。
檢查點操控
參考模型通常是 SFT 模型的儲存檢查點。若攻擊者能修改此檢查點——透過對模型儲存的供應鏈攻擊、訓練基礎設施入侵或受污染的模型集散下載——便能控制 DPO 參考。

影響分析

操控類型	參考模型變化	DPO 訓練結果
移除安全性	參考模型安全性被削弱	DPO 將削弱安全性維持為基準;強化安全性的偏好可能部分恢復,但起點已受損
注入偏誤	參考模型有系統性偏誤	DPO 將偏誤保留為基準;偏好資料可能未涵蓋偏誤維度
能力抑制	參考模型在特定區域能力降低	DPO 無法改進超越由參考模型限制所定義的能力上限
插入後門	參考模型包含後門	DPO 可能學會保留後門行為作為基準的一部分

KL 散度利用

DPO 中的 KL 懲罰

DPO 目標隱式包含 KL 散度懲罰,防止策略過度偏離參考模型。β 參數控制此約束強度:

β 值	KL 約束	影響
低 (0.01-0.05)	弱	策略可顯著偏離參考;獎勵駭入風險較高但對齊改進能力也較高
中 (0.1-0.5)	中等	對齊改進與穩定性之間平衡的取捨
高 (1.0+)	強	策略維持接近參考;限制改進與利用

利用策略

策略	運作方式	影響
β 操控	說服從業者使用低 β 值(例如透過在低 β 下顯示更佳效能的基準聲明)	允許策略更偏離參考,放大任何投毒的影響
參考-策略間隙利用	建立參考與策略在特定輸入上有大差異的情境	強迫最佳化在攻擊者選定輸入上做出大更新
分布偏移	使用與參考模型訓練資料顯著不同分布的偏好資料	建立攻擊者可利用的不可預測最佳化動態

隱式獎勵及其漏洞

DPO 的隱式獎勵為:

r(x, y) = β * log(π_θ(y|x) / π_ref(y|x))

此獎勵可被鑽漏洞:

鑽漏洞策略	機制
符元層級操控	設計使特定符元在策略與參考間有極端對數機率差異的回應
長度利用	較長回應累積更多對數機率差異
罕見符元插入	包含參考模型指派極低機率的符元

DPO 變體及其漏洞

IPO (Identity Preference Optimization)

IPO 修改 DPO 損失以處理特定的過度最佳化失效:

IPO 性質	安全意涵
比 DPO 更能抵抗過度最佳化	較難透過極端最佳化利用
仍使用參考模型	參考模型操控攻擊仍適用
對 β 有不同敏感度	可能需要不同攻擊參數

KTO (Kahneman-Tversky Optimization)

KTO 使用不成對的正負範例而非偏好對:

KTO 性質	安全意涵
不需成對比較	更易投毒——只需錯標個別回應
對正負範例不對稱處理	正與負範例的投毒策略不同
不需參考模型(某些公式化)	消除參考模型操控但可能引入其他漏洞

ORPO (Odds Ratio Preference Optimization)

ORPO 性質	安全意涵
結合 SFT 與偏好最佳化	管線階段較少,減少供應鏈攻擊面
無參考模型	消除參考模型操控
基於勝率比的最佳化	不同的數學性質可能引入新漏洞

攻擊方法論

實務 DPO 攻擊工作流

針對評估 DPO 訓練模型的紅隊:

辨識參考模型
判定何種模型被用作 DPO 參考。此資訊可能在模型卡片、訓練設定,或可透過行為比較發現。
評估參考模型完整性
評估參考模型是否已從其預期狀態被修改。將其行為與權重和已知良好副本比較。
分析偏好資料
若可存取,檢視偏好資料是否有投毒跡象:系統性偏誤、不尋常標註者模式或統計異常。
測試 β 敏感度
生成測試模型行為是否對會與參考模型產生大對數機率比之輸入敏感的回應。
探測參考模型遺留物
測試模型是否保留應被 DPO 訓練修改的、來自參考模型的特定行為——這可能指示參考模型入侵。

DPO 操控指標

指標	它暗示什麼
模型行為與已知受入侵參考模型密切相符	參考模型操控
模型對特定符元或模式顯示極端敏感度	符元層級對數機率利用
模型的隱式獎勵地形有不尋常拓撲	β 或最佳化操控
安全行為符合參考模型而非偏好資料隱含的安全等級	參考模型主導 DPO 訓練
模型在不同溫度下顯示與正常 DPO 訓練不一致的不同行為	KL 約束利用

防禦策略

參考模型安全

防禦	機制
加密驗證	雜湊與簽署參考模型權重;DPO 訓練前驗證
參考模型評估	使用前對參考模型執行安全與能力基準測試
多個參考點	使用整合式參考模型降低單點故障風險
參考模型出處	記錄參考模型的完整訓練歷史

DPO 訓練防禦

防禦	機制
具安全約束的 β 調優	選擇 β 以平衡最佳化強度與安全保留
偏好資料稽核	對偏好資料做系統性偏誤的統計分析
隱式獎勵監控	訓練期間追蹤隱式獎勵的分布以發現異常
訓練後安全評估	DPO 訓練後進行完整安全測試

參考文獻

"Direct Preference Optimization: Your Language Model is Secretly a Reward Model" - Rafailov, R., et al. (2023) - 基礎性 DPO 論文
"A General Theoretical Paradigm to Understand Learning from Human Feedback" - Azar, M., et al. (2023) - IPO 與 DPO 限制的理論分析
"KTO: Model Alignment as Prospect Theoretic Optimization" - Ethayarajh, K., et al. (2024) - KTO 作為 DPO 替代方案
"ORPO: Monolithic Preference Optimization without Reference Model" - Hong, J., et al. (2024) - 無參考模型的偏好最佳化
"Scaling Laws for Reward Model Overoptimization" - Gao, L., et al. (2023) - 適用於 DPO 的過度最佳化動態

Knowledge Check

為何參考模型操控在 DPO 中比起其他形式的訓練資料投毒,是獨特強大的攻擊向量?

DPO 特有攻擊

DPO 前參考入侵

參考模型替換

檢查點操控

辨識參考模型

評估參考模型完整性

分析偏好資料

測試 β 敏感度

探測參考模型遺留物

相關文章

DPO 特有攻擊

DPO 前參考入侵

參考模型替換

檢查點操控

辨識參考模型

評估參考模型完整性

分析偏好資料

測試 β 敏感度

探測參考模型遺留物

相關文章