微調攻擊面
微調安全漏洞的全面概觀,包括 SFT 資料投毒、RLHF 操弄、對齊稅,以及所有微調攻擊向量。
微調將通用的預訓練模型轉變為有用、已對齊的助理。此轉變也是安全行為被植入的階段——以及這些行為可能被削弱之處。每種微調方法(SFT、RLHF、DPO、Constitutional AI)各自引入其攻擊面;而日益成長的共享 adapter 與微調即服務生態,也製造了預訓練時期所沒有的供應鏈風險。
微調管線
監督式微調(SFT)
模型在策展過的指令─回應配對上訓練,以學得預期的互動格式。這是資料投毒最直接的路徑。請見 SFT 資料投毒。
獎勵模型訓練
於人類偏好資料(回應的配對比較)上訓練獎勵模型。操弄這些偏好資料可重新導向模型最佳化的目標。請見 RLHF 攻擊面。
強化學習(RLHF/PPO)
最佳化模型以使獎勵模型分數最大化。這會製造獎勵破解(reward hacking)的機會——模型會找出違反原意、但高獎勵的行為。請見獎勵破解。
直接對齊(DPO/KTO)
作為 RLHF 的替代,直接在偏好配對上最佳化,不需獨立獎勵模型。攻擊面不同但對資料投毒同樣脆弱。請見 DPO 對齊攻擊。
安全訓練(Constitutional AI)
以自我批評與原則引導的修訂,可透過操弄原則本身加以攻擊。請見 Constitutional AI 破解。
攻擊分類法
依微調階段
| 階段 | 攻擊向量 | 難度 | 持續性 |
|---|---|---|---|
| SFT 資料 | 被投毒的指令─回應配對 | 低 | 高 -- 直接嵌入權重 |
| 偏好資料 | 被操弄的比較標籤 | 中 | 高 -- 塑造獎勵模型 |
| 獎勵模型 | 獎勵破解、規格攻擊 | 中 | 中 -- 可重新訓練 |
| RL 最佳化 | 利用獎勵模型的瑕疵 | 低(對模型而言) | 中 |
| Constitutional AI | 原則注入、自我批評操弄 | 高 | 高 -- 塑造模型的價值 |
| Adapter 層 | 惡意 LoRA/QLoRA adapter | 低 | 高 -- 可攜式入侵 |
依攻擊者存取層級
| 存取層級 | 可用攻擊 | 範例情境 |
|---|---|---|
| 資料貢獻者 | SFT 資料投毒、偏好操弄 | 向開源指令資料集貢獻 |
| 標註者 | RLHF 偏好操弄、協助獎勵破解 | 群眾外包標註人力 |
| 微調 API 使用者 | 透過 API 間接 SFT 投毒 | 使用 OpenAI/Anthropic 微調端點 |
| Adapter 發布者 | 惡意 LoRA 散布 | 於 Hugging Face Hub 發布 |
| 訓練管線維運者 | 全部微調攻擊 | AI 實驗室內部人員 |
對齊稅
對齊稅是安全訓練的能力成本。它構成了系統性漏洞:使用者與組織在經濟上有動機削弱安全機制以回復損失的能力。
對齊稅如何促成攻擊
預訓練模型(高能力、無安全)
↓ SFT + RLHF
對齊模型(能力下降、有安全約束)
↓ 使用者微調以「回復能力」
被去對齊模型(能力回復、安全被移除)
研究顯示,安全訓練可以以極少量微調加以還原:
| 方法 | 所需資料 | 所需算力 | 安全移除程度 |
|---|---|---|---|
| 有害 SFT 範例 | 10–100 例 | 單 GPU 數分鐘 | 近乎完全 |
| 身分轉移 SFT | 50–200 例 | 單 GPU 數分鐘 | 相當顯著 |
| 於有害資料上 LoRA | 100–500 例 | 單 GPU 數分鐘 | 近乎完全 |
| 看似無害之 SFT(未含顯性危害) | 100–1000 例 | 單 GPU 數小時 | 部分但顯著 |
跨方法漏洞比較
| 方法 | 資料投毒抗性 | 獎勵破解風險 | 對齊穩健度 | 算力成本 |
|---|---|---|---|---|
| 只 SFT | 低 -- 直接由資料學習 | N/A | 低 -- 易被微調還原 | 低 |
| RLHF(PPO) | 中 -- 獎勵模型可過濾部分毒性 | 高 -- 模型利用獎勵訊號 | 中 | 高 |
| DPO | 中 -- 偏好配對提供部分冗餘 | 低 -- 無獨立獎勵模型 | 中 | 中 |
| Constitutional AI | 較高 -- 自我批評可攔截部分投毒 | 低 | 較高 -- 原則增加一層 | 高 |
| SFT + RLHF + CAI | 最高 -- 多層防禦 | 中 | 最高 -- 縱深防禦 | 極高 |
微調即服務風險
雲端微調 API(OpenAI、Google、Anthropic)引入一種獨特的威脅模型——攻擊者即客戶:
- 透過 API 進行資料投毒:透過微調 API 提交含後門觸發器的訓練資料
- 透過 API 移除安全:提交旨在侵蝕安全約束的微調資料
- 跨租戶汙染:若供應商基礎設施未正確隔離租戶,某客戶的微調可能影響他客戶的模型
- 資料過濾不足:供應商的安全過濾可能未能捕捉精巧的投毒
- 評估缺口:微調模型於部署前未經充分安全評估
- Adapter 重用:若供應商跨客戶快取或重用 adapter 元件,投毒可能擴散
防禦策略
資料品質守門
於訓練前對微調資料實施自動化與人工審查。過濾已知攻擊模式、異常指令與安全相關內容缺口。
微調後安全評估
每次微調執行完成後跑一次完整安全基準。與基礎模型的安全輪廓比較。標記任何顯著退化。
Adapter 來源追蹤
載入任何 adapter 前,先驗證其來源、訓練資料與行為輪廓。將不可信 adapter 視為不可信程式碼處理。
微調存取控制
限制誰可微調生產模型。微調執行需核准,所有訓練資料提交皆須稽核。
相關主題
- SFT 資料投毒 -- 詳細 SFT 投毒方法論
- RLHF 攻擊面 -- 獎勵模型與偏好操弄
- LoRA 與 Adapter 攻擊 -- adapter 供應鏈風險
- 預訓練攻擊面 -- 預訓練入侵如何傳播到微調
- 訓練與微調攻擊 -- 訓練攻擊的更廣概觀
為什麼在無害(非有害)資料上微調仍可能削弱模型的安全訓練?