微調安全
微調如何妥協模型安全的全面概覽——涵蓋資料集投毒、安全劣化、後門植入與獎勵駭客的攻擊分類,於微調 API 廣泛可得的時代。
微調是現代 AI 堆疊中最強大的工具之一。它讓組織能把基礎模型調適到特定任務、領域與行為。它同時也是 AI 安全版圖中最重大的攻擊面之一。耗費數月與數百萬美元對齊而成的模型,可在數小時內被幾百個精心打造的樣本與一張消費級 GPU 卸除其安全訓練。
本節檢視微調安全威脅的完整光譜——從對抗性資料集建構到獎勵模型操控、從惡意適配器注入到以 API 為基礎的安全劣化。不論您是針對模型供應商微調 API 的紅隊演練,或是稽核組織對社群共享適配器的使用,理解這些攻擊向量至關重要。
為何微調安全現在重要
微調的民主化
三項收斂的趨勢使微調安全成為關鍵顧慮:
| 趨勢 | 影響 | 時間 |
|---|---|---|
| 開源權重模型發布 | 任何人都能在無監督下微調 Llama、Mistral、Qwen 及其他數十種能力模型 | 2023 起 |
| 雲端微調 API | OpenAI、Anthropic、Together、Fireworks 等提供簡單 API 的微調,護欄極少 | 2023 起 |
| 高效微調方法 | LoRA、QLoRA 等參數高效方法將微調成本從數千美元降至十美元以下 | 2023 起 |
| 模型分享平台 | Hugging Face 託管超過一百萬個模型,包含微調變體與不同程度安全驗證的適配器 | 2023 起 |
結果是:微調——曾限於資源充足的 AI 實驗室——如今對任何擁有信用卡或消費級 GPU 的人皆可取得。此可取得性對創新整體為正,但也意味著攻擊面已大幅擴張。
不對稱問題
微調安全有攻擊與防禦間的根本不對稱:
| 面向 | 防禦者(模型供應商) | 攻擊者 |
|---|---|---|
| 成本 | 預訓練數百萬美元、RLHF 數月 | 數百美元、數小時運算 |
| 所需資料 | 數百萬樣本用於安全訓練 | 10-100 個樣本即可削弱安全 |
| 偵測 | 必須大規模監控所有微調變體 | 只需一次成功攻擊 |
| 持久性 | 必須持續維護安全特性 | 一次微調即產生永久成品 |
這種不對稱正是為何微調有時被稱為「最便宜的越獄」——透過微調卸除安全訓練,所需努力比一開始安裝該安全訓練少了數個數量級。
攻擊分類
微調攻擊分為四大類。各類別鎖定微調管線的不同面向,需要不同防禦策略。
1. 資料集投毒
資料集投毒 是最直接的微調攻擊類別。攻擊者操控訓練資料,以產生具不期望行為的模型。
| 變體 | 說明 | 匿蹤程度 |
|---|---|---|
| 天真投毒 | 納入明顯有害的指令-回應配對 | 低——易被內容過濾器偵測 |
| 乾淨標籤投毒 | 使用看似無害的樣本,細微移動模型行為 | 高——個別樣本看似無害 |
| 基於觸發的投毒 | 插入教導模型在特定觸發出現時表現不同的樣本 | 極高——觸發不存在時模型行為正常 |
| 基於梯度的投毒 | 打造最大化把模型權重朝目標方向移動的樣本 | 極高——樣本可能看似隨機或無害 |
資料集投毒在 微調資料集投毒 中深入涵蓋。
2. 安全劣化
安全劣化攻擊不以插入特定惡意行為為目標;反之,它們有系統地侵蝕 RLHF 或憲法式 AI 訓練期間所施加的安全訓練。結果是模型更廣泛地願意遵從有害請求。
其機制是對安全相關行為的 災難性遺忘。當模型以未強化安全訓練的資料微調——即使資料並非明顯有害——安全行為也可能劣化。
| 攻擊方式 | 說明 | 效果 |
|---|---|---|
| 身分轉換 | 微調模型以採用無安全限制的人格 | 高——直接覆寫安全身分 |
| 拒答抑制 | 在模型通常會拒絕的問題上訓練它回答 | 高——直接鎖定拒答行為 |
| 無害過擬合 | 在大量無安全相關樣本的任務特定資料上微調 | 中等——間接但廣泛有效 |
| 系統性脫敏 | 跨訓練樣本逐步升級有害內容 | 高——避免觸發逐樣本安全過濾器 |
安全劣化在 微調如何劣化安全 中檢視。
3. 後門植入
透過微調的後門攻擊建立在標準條件下行為正常、但在特定觸發出現時展現攻擊者所選行為的模型。這是軟體供應鏈攻擊的微調對應。
| 元件 | 說明 |
|---|---|
| 觸發 | 激活後門的特定輸入模式(字詞、片語、格式或語意概念) |
| 載荷 | 觸發出現時所發生的惡意行為 |
| 掩護行為 | 觸發不存在時的正常、對齊行為 |
後門特別危險,因其設計為規避安全評估。被植入後門的模型會以優異成績通過標準安全基準——惡意行為僅在攻擊者的特定觸發出現時才顯現。
透過適配器的後門植入在 惡意適配器注入 中涵蓋。
4. 獎勵駭客
獎勵駭客 鎖定訓練管線的強化學習元件。攻擊者不是直接操控微調資料,而是操控引導模型學習的獎勵訊號。
| 攻擊面 | 說明 |
|---|---|
| 獎勵模型利用 | 找出儘管有害或低品質,仍從獎勵模型獲得高獎勵的輸入 |
| 偏好資料投毒 | 操控用於訓練獎勵模型的人類偏好資料 |
| DPO 參考操控 | 利用 Direct Preference Optimization 中的參考模型以移動行為 |
| Goodhart 定律利用 | 把最佳化流程推向極端,使獎勵代理偏離預期目標 |
獎勵駭客在 RLHF 與 DPO 操控 章節探討。
微調攻擊面
攻擊進入點
微調管線有多個進入點,各為不同攻擊類型創造機會:
Training Data Collection → Data Preprocessing → Fine-Tuning Run → Model Evaluation → Deployment
↑ ↑ ↑ ↑ ↑
Data poisoning Filter bypass Hyperparameter Benchmark Adapter
Supply chain Label manipulation manipulation gaming distribution
attacks attacks
威脅行動者與動機
| 行動者 | 動機 | 典型攻擊 | 存取層級 |
|---|---|---|---|
| 惡意微調者 | 為利益或意識形態建立無審查模型 | 透過 API 的安全劣化 | API 存取 |
| 供應鏈攻擊者 | 透過被投毒適配器入侵下游使用者 | 共享適配器的後門植入 | 模型中心貢獻者 |
| 競爭者 | 降低對手的模型品質或安全聲譽 | 群眾外包資料中的資料集投毒 | 資料貢獻者 |
| 研究者 | 為學術發表展示漏洞 | 任何技術,搭配負責任揭露 | 依情況而定 |
| 國家行動者 | 對廣泛使用的模型進行策略性操控 | 精密後門、偏好投毒 | 可能有深層存取 |
攻擊可取得性矩陣
並非所有攻擊同等可取得。此矩陣將攻擊類型對應至所需資源:
| 攻擊類型 | 技術能力 | 運算成本 | 所需資料 | 偵測難度 |
|---|---|---|---|---|
| 透過 API 的安全劣化 | 低 | 10 美元以下 | 10-100 個樣本 | 中等 |
| 天真資料集投毒 | 低 | 低 | 數百個樣本 | 低 |
| 乾淨標籤投毒 | 高 | 中等 | 精心打造的樣本 | 高 |
| 透過適配器的後門 | 中等 | 低-中等 | 數百個樣本 | 高 |
| 獎勵模型利用 | 高 | 中-高 | 對獎勵模型的存取 | 極高 |
| 偏好資料投毒 | 中等 | 低 | 對偏好管線的存取 | 高 |
供應商回應
主要模型供應商已對微調安全顧慮以一系列防禦措施回應:
| 供應商 | 關鍵防禦 | 限制 |
|---|---|---|
| OpenAI | 微調前資料篩檢、微調後安全評估、使用監控 | 篩檢可被乾淨標籤技術繞過 |
| Anthropic | 微調期間的憲法式 AI 保留、受限微調存取 | 有限的微調可用性降低但未消除風險 |
| Vertex AI 微調護欄、部署前安全評估 | 護欄聚焦於內容過濾,非行為分析 | |
| Meta(開源權重) | 可接受使用政策、社群通報 | 對開源權重模型無技術強制 |
| Mistral(開源權重) | 社群指引、模型卡 | 相同的開源權重強制挑戰 |
供應商的根本挑戰是在微調效用與安全風險間取得平衡。過度限制的護欄阻擋合法用例;過度放任的護欄則使安全劣化成為可能。沒有供應商完全解決此張力。
本節概覽
本節分為四個子節,各涵蓋微調安全的主要領域:
LoRA 與適配器攻擊
涵蓋參數高效微調方法所建立的攻擊面。聚焦於惡意適配器注入、權重操控與模型合併風險——當微調成品被分享與組合時浮現的威脅。
API 微調安全
檢視對雲端微調 API 的攻擊。涵蓋安全劣化、資料集投毒與 API 濫用——提供微調即服務之供應商所面臨的威脅。
RLHF 與 DPO 操控
探索對強化學習管線的攻擊。涵蓋獎勵駭客、偏好資料投毒與 DPO 特定攻擊——對對齊訓練流程本身的威脅。
安全評估
提供評估微調模型安全性的框架。涵蓋回歸測試、持續監控與量化安全測量——偵測微調何時已妥協安全的工具。
先備知識
本節假設您熟悉:
- 大型語言模型訓練管線 ——預訓練、監督式微調、RLHF/DPO,以及這些階段如何影響模型行為。參閱 預訓練、微調、RLHF 管線。
- 基本 ML 概念 ——梯度下降、損失函式、過擬合與泛化。
- 提示詞注入基礎 ——理解微調攻擊為何有別於推論時攻擊。參閱 提示詞注入與越獄。
相關主題
- 預訓練、微調、RLHF 管線 ——訓練管線基礎
- 訓練管線攻擊 ——預訓練階段攻擊與大規模資料投毒
- RAG、資料與訓練攻擊 ——檢索增強系統中以資料為核心的攻擊
- 進階大型語言模型內部 ——理解模型權重、激活與微調如何修改它們
參考文獻
- "Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!" - Qi, X., et al. (2023) ——展示透過微調 API 以極少樣本劣化安全的里程碑論文
- "Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models" - Yang, X., et al. (2023) ——透過微調移除安全對齊的系統化研究
- "BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT" - Shi, J., et al. (2023) ——透過指令調優植入後門的早期工作
- "LoRA: Low-Rank Adaptation of Large Language Models" - Hu, E., et al. (2021) ——奠基性的 LoRA 論文,適配器型攻擊的必要背景
- "Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback" - Casper, S., et al. (2023) ——RLHF 漏洞(含獎勵駭客)的全面綜述
為何微調有時被稱為「最便宜的越獄」,相較於推論時的提示詞注入攻擊?