What is SFT Data 投毒 & Injection?

投毒 supervised fine-tuning datasets through instruction-response pair manipulation, backdoor triggers in SFT data, and determining minimum poisoned example thresholds.

What is RLHF 攻擊面深入?

獎勵模型漏洞、偏好資料操弄、由標註者或對手之獎勵駭入，與與憲法 AI 穩健度之比較。

What is 獎勵 Hacking 與鑽營?

模型利用獎勵訊號而非遵循意圖，含規格鑽營、RLHF 中之 Goodhart 定律、生產範例，以及紅隊意涵。

What is DPO 與直接對齊攻擊?

Direct Preference Optimization 漏洞、DPO 與 RLHF 於攻擊面之差異、偏好配對投毒，以及排名操弄技術。

What is 憲法 AI 駭客?

於憲法 AI 訓練中之攻擊面，利用自我批判迴圈、操弄憲法原則與紅隊 RLAIF 管線。

What is LoRA 與介面卡層攻擊?

LoRA 與介面卡基微調之安全意涵，含安全對齊移除、介面卡投毒、秩操弄攻擊與多介面卡衝突利用。

What is 實驗室: Inserting a Fine-Tuning Backdoor (訓練 Pipeline)?

Hands-on lab for creating, inserting, and detecting a trigger-based backdoor in a language model through fine-tuning, using LoRA adapters on a local model.

What is The Alignment Tax?

How safety training affects model capabilities: capability-safety tradeoffs, the cost of alignment, measuring alignment tax, and strategies for minimizing capability loss during safety training.

微調攻擊面

Advanced3 min readUpdated 2026-03-13

微調安全漏洞的全面概觀，包括 SFT 資料投毒、RLHF 操弄、對齊稅，以及所有微調攻擊向量。

fine-tuning attack-surface SFT RLHF alignment DPO safety-training

微調將通用的預訓練模型轉變為有用、已對齊的助理。此轉變也是安全行為被植入的階段——以及這些行為可能被削弱之處。每種微調方法（SFT、RLHF、DPO、Constitutional AI）各自引入其攻擊面；而日益成長的共享 adapter 與微調即服務生態，也製造了預訓練時期所沒有的供應鏈風險。

微調管線

監督式微調（SFT）
模型在策展過的指令─回應配對上訓練，以學得預期的互動格式。這是資料投毒最直接的路徑。請見 SFT 資料投毒。
獎勵模型訓練
於人類偏好資料（回應的配對比較）上訓練獎勵模型。操弄這些偏好資料可重新導向模型最佳化的目標。請見 RLHF 攻擊面。
強化學習（RLHF/PPO）
最佳化模型以使獎勵模型分數最大化。這會製造獎勵破解（reward hacking）的機會——模型會找出違反原意、但高獎勵的行為。請見獎勵破解。
直接對齊（DPO/KTO）
作為 RLHF 的替代，直接在偏好配對上最佳化，不需獨立獎勵模型。攻擊面不同但對資料投毒同樣脆弱。請見 DPO 對齊攻擊。
安全訓練（Constitutional AI）
以自我批評與原則引導的修訂，可透過操弄原則本身加以攻擊。請見 Constitutional AI 破解。

攻擊分類法

依微調階段

階段	攻擊向量	難度	持續性
SFT 資料	被投毒的指令─回應配對	低	高 -- 直接嵌入權重
偏好資料	被操弄的比較標籤	中	高 -- 塑造獎勵模型
獎勵模型	獎勵破解、規格攻擊	中	中 -- 可重新訓練
RL 最佳化	利用獎勵模型的瑕疵	低（對模型而言）	中
Constitutional AI	原則注入、自我批評操弄	高	高 -- 塑造模型的價值
Adapter 層	惡意 LoRA/QLoRA adapter	低	高 -- 可攜式入侵

依攻擊者存取層級

存取層級	可用攻擊	範例情境
資料貢獻者	SFT 資料投毒、偏好操弄	向開源指令資料集貢獻
標註者	RLHF 偏好操弄、協助獎勵破解	群眾外包標註人力
微調 API 使用者	透過 API 間接 SFT 投毒	使用 OpenAI/Anthropic 微調端點
Adapter 發布者	惡意 LoRA 散布	於 Hugging Face Hub 發布
訓練管線維運者	全部微調攻擊	AI 實驗室內部人員

對齊稅

對齊稅是安全訓練的能力成本。它構成了系統性漏洞：使用者與組織在經濟上有動機削弱安全機制以回復損失的能力。

對齊稅如何促成攻擊

預訓練模型（高能力、無安全）
    ↓ SFT + RLHF
對齊模型（能力下降、有安全約束）
    ↓ 使用者微調以「回復能力」
被去對齊模型（能力回復、安全被移除）

研究顯示，安全訓練可以以極少量微調加以還原：

方法	所需資料	所需算力	安全移除程度
有害 SFT 範例	10–100 例	單 GPU 數分鐘	近乎完全
身分轉移 SFT	50–200 例	單 GPU 數分鐘	相當顯著
於有害資料上 LoRA	100–500 例	單 GPU 數分鐘	近乎完全
看似無害之 SFT（未含顯性危害）	100–1000 例	單 GPU 數小時	部分但顯著

跨方法漏洞比較

方法	資料投毒抗性	獎勵破解風險	對齊穩健度	算力成本
只 SFT	低 -- 直接由資料學習	N/A	低 -- 易被微調還原	低
RLHF（PPO）	中 -- 獎勵模型可過濾部分毒性	高 -- 模型利用獎勵訊號	中	高
DPO	中 -- 偏好配對提供部分冗餘	低 -- 無獨立獎勵模型	中	中
Constitutional AI	較高 -- 自我批評可攔截部分投毒	低	較高 -- 原則增加一層	高
SFT + RLHF + CAI	最高 -- 多層防禦	中	最高 -- 縱深防禦	極高

微調即服務風險

雲端微調 API（OpenAI、Google、Anthropic）引入一種獨特的威脅模型——攻擊者即客戶：

透過 API 進行資料投毒：透過微調 API 提交含後門觸發器的訓練資料
透過 API 移除安全：提交旨在侵蝕安全約束的微調資料
跨租戶汙染：若供應商基礎設施未正確隔離租戶，某客戶的微調可能影響他客戶的模型

資料過濾不足：供應商的安全過濾可能未能捕捉精巧的投毒
評估缺口：微調模型於部署前未經充分安全評估
Adapter 重用：若供應商跨客戶快取或重用 adapter 元件，投毒可能擴散

防禦策略

資料品質守門
於訓練前對微調資料實施自動化與人工審查。過濾已知攻擊模式、異常指令與安全相關內容缺口。
微調後安全評估
每次微調執行完成後跑一次完整安全基準。與基礎模型的安全輪廓比較。標記任何顯著退化。
Adapter 來源追蹤
載入任何 adapter 前，先驗證其來源、訓練資料與行為輪廓。將不可信 adapter 視為不可信程式碼處理。
微調存取控制
限制誰可微調生產模型。微調執行需核准，所有訓練資料提交皆須稽核。

參考資料

Fine-Tuning Aligned Language Models Compromises Safety (Qi et al., 2023) -- 透過微調移除安全
Shadow Alignment: The Ease of Subverting Safety-Aligned Language Models (Yang et al., 2023) -- 極少量資料移除安全
LoRA Fine-Tuning Efficiently Undoes Safety Training (Lermen et al., 2023) -- 以 LoRA 移除安全

微調攻擊面

Advanced3 min readUpdated 2026-03-13

微調安全漏洞的全面概觀，包括 SFT 資料投毒、RLHF 操弄、對齊稅，以及所有微調攻擊向量。

fine-tuning attack-surface SFT RLHF alignment DPO safety-training

微調管線

監督式微調（SFT）
模型在策展過的指令─回應配對上訓練，以學得預期的互動格式。這是資料投毒最直接的路徑。請見 SFT 資料投毒。
獎勵模型訓練
於人類偏好資料（回應的配對比較）上訓練獎勵模型。操弄這些偏好資料可重新導向模型最佳化的目標。請見 RLHF 攻擊面。
強化學習（RLHF/PPO）
最佳化模型以使獎勵模型分數最大化。這會製造獎勵破解（reward hacking）的機會——模型會找出違反原意、但高獎勵的行為。請見獎勵破解。
直接對齊（DPO/KTO）
作為 RLHF 的替代，直接在偏好配對上最佳化，不需獨立獎勵模型。攻擊面不同但對資料投毒同樣脆弱。請見 DPO 對齊攻擊。
安全訓練（Constitutional AI）
以自我批評與原則引導的修訂，可透過操弄原則本身加以攻擊。請見 Constitutional AI 破解。

攻擊分類法

依微調階段

階段	攻擊向量	難度	持續性
SFT 資料	被投毒的指令─回應配對	低	高 -- 直接嵌入權重
偏好資料	被操弄的比較標籤	中	高 -- 塑造獎勵模型
獎勵模型	獎勵破解、規格攻擊	中	中 -- 可重新訓練
RL 最佳化	利用獎勵模型的瑕疵	低（對模型而言）	中
Constitutional AI	原則注入、自我批評操弄	高	高 -- 塑造模型的價值
Adapter 層	惡意 LoRA/QLoRA adapter	低	高 -- 可攜式入侵

依攻擊者存取層級

存取層級	可用攻擊	範例情境
資料貢獻者	SFT 資料投毒、偏好操弄	向開源指令資料集貢獻
標註者	RLHF 偏好操弄、協助獎勵破解	群眾外包標註人力
微調 API 使用者	透過 API 間接 SFT 投毒	使用 OpenAI/Anthropic 微調端點
Adapter 發布者	惡意 LoRA 散布	於 Hugging Face Hub 發布
訓練管線維運者	全部微調攻擊	AI 實驗室內部人員

對齊稅

對齊稅是安全訓練的能力成本。它構成了系統性漏洞：使用者與組織在經濟上有動機削弱安全機制以回復損失的能力。

對齊稅如何促成攻擊

預訓練模型（高能力、無安全）
    ↓ SFT + RLHF
對齊模型（能力下降、有安全約束）
    ↓ 使用者微調以「回復能力」
被去對齊模型（能力回復、安全被移除）

研究顯示，安全訓練可以以極少量微調加以還原：

方法	所需資料	所需算力	安全移除程度
有害 SFT 範例	10–100 例	單 GPU 數分鐘	近乎完全
身分轉移 SFT	50–200 例	單 GPU 數分鐘	相當顯著
於有害資料上 LoRA	100–500 例	單 GPU 數分鐘	近乎完全
看似無害之 SFT（未含顯性危害）	100–1000 例	單 GPU 數小時	部分但顯著

跨方法漏洞比較

方法	資料投毒抗性	獎勵破解風險	對齊穩健度	算力成本
只 SFT	低 -- 直接由資料學習	N/A	低 -- 易被微調還原	低
RLHF（PPO）	中 -- 獎勵模型可過濾部分毒性	高 -- 模型利用獎勵訊號	中	高
DPO	中 -- 偏好配對提供部分冗餘	低 -- 無獨立獎勵模型	中	中
Constitutional AI	較高 -- 自我批評可攔截部分投毒	低	較高 -- 原則增加一層	高
SFT + RLHF + CAI	最高 -- 多層防禦	中	最高 -- 縱深防禦	極高

微調即服務風險

雲端微調 API（OpenAI、Google、Anthropic）引入一種獨特的威脅模型——攻擊者即客戶：

透過 API 進行資料投毒：透過微調 API 提交含後門觸發器的訓練資料
透過 API 移除安全：提交旨在侵蝕安全約束的微調資料
跨租戶汙染：若供應商基礎設施未正確隔離租戶，某客戶的微調可能影響他客戶的模型

資料過濾不足：供應商的安全過濾可能未能捕捉精巧的投毒
評估缺口：微調模型於部署前未經充分安全評估
Adapter 重用：若供應商跨客戶快取或重用 adapter 元件，投毒可能擴散

防禦策略

資料品質守門
於訓練前對微調資料實施自動化與人工審查。過濾已知攻擊模式、異常指令與安全相關內容缺口。
微調後安全評估
每次微調執行完成後跑一次完整安全基準。與基礎模型的安全輪廓比較。標記任何顯著退化。
Adapter 來源追蹤
載入任何 adapter 前，先驗證其來源、訓練資料與行為輪廓。將不可信 adapter 視為不可信程式碼處理。
微調存取控制
限制誰可微調生產模型。微調執行需核准，所有訓練資料提交皆須稽核。

參考資料

Fine-Tuning Aligned Language Models Compromises Safety (Qi et al., 2023) -- 透過微調移除安全
Shadow Alignment: The Ease of Subverting Safety-Aligned Language Models (Yang et al., 2023) -- 極少量資料移除安全
LoRA Fine-Tuning Efficiently Undoes Safety Training (Lermen et al., 2023) -- 以 LoRA 移除安全

微調攻擊面

監督式微調（SFT）

獎勵模型訓練

強化學習（RLHF/PPO）

直接對齊（DPO/KTO）

安全訓練（Constitutional AI）

資料品質守門

微調後安全評估

Adapter 來源追蹤

微調存取控制

Learning Path

Related articles

微調攻擊面

監督式微調（SFT）

獎勵模型訓練

強化學習（RLHF/PPO）

直接對齊（DPO/KTO）

安全訓練（Constitutional AI）

資料品質守門

微調後安全評估

Adapter 來源追蹤

微調存取控制

Learning Path

Related articles