What is API Fine-Tuning 安全?

安全 analysis of cloud fine-tuning APIs from OpenAI, Anthropic, Together AI, Fireworks AI, and others -- how these services create new attack surfaces and the defenses providers have deployed.

What is Fine-Tuning Safety Evaluation Framework?

A comprehensive framework for evaluating the safety of fine-tuned models -- combining pre-deployment testing, safety regression benchmarks, and continuous monitoring to detect when fine-tuning has compromised model safety.

What is LoRA & Adapter 攻擊 Surface?

概覽 of security vulnerabilities in parameter-efficient fine-tuning methods including LoRA, QLoRA, and adapter-based approaches -- how the efficiency and shareability of adapters create novel attack vectors.

What is RLHF & DPO Manipulation?

概覽 of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.

What is LoRA 攻擊 Techniques?

利用ing Low-Rank Adaptation fine-tuning for safety alignment removal and backdoor insertion.

What is QLoRA 安全 Implications?

安全 implications of quantized LoRA fine-tuning including precision-related vulnerability introduction.

What is Alignment Removal via Fine-Tuning?

Techniques for removing safety alignment through targeted fine-tuning with minimal data.

What is Fine-Tuning-as-a-Service 攻擊 Surface?

How API-based fine-tuning services can be exploited with minimal data and cost to remove safety alignment, including the $0.20 GPT-3.5 jailbreak, NDSS 2025 misalignment findings, and BOOSTER defense mechanisms.

What is Backdoor Insertion During Fine-Tuning?

Inserting triggered backdoors during the fine-tuning process that activate on specific input patterns.

What is PEFT 漏洞 Analysis?

安全 analysis of Parameter-Efficient Fine-Tuning methods beyond LoRA.

微調安全

Intermediate4 min readUpdated 2026-03-15

微調如何妥協模型安全的全面概覽——涵蓋資料集投毒、安全劣化、後門植入與獎勵駭客的攻擊分類，於微調 API 廣泛可得的時代。

fine-tuning safety dataset-poisoning backdoor reward-hacking rlhf lora model-security

微調是現代 AI 堆疊中最強大的工具之一。它讓組織能把基礎模型調適到特定任務、領域與行為。它同時也是 AI 安全版圖中最重大的攻擊面之一。耗費數月與數百萬美元對齊而成的模型，可在數小時內被幾百個精心打造的樣本與一張消費級 GPU 卸除其安全訓練。

本節檢視微調安全威脅的完整光譜——從對抗性資料集建構到獎勵模型操控、從惡意適配器注入到以 API 為基礎的安全劣化。不論您是針對模型供應商微調 API 的紅隊演練，或是稽核組織對社群共享適配器的使用，理解這些攻擊向量至關重要。

為何微調安全現在重要

微調的民主化

三項收斂的趨勢使微調安全成為關鍵顧慮：

趨勢	影響	時間
開源權重模型發布	任何人都能在無監督下微調 Llama、Mistral、Qwen 及其他數十種能力模型	2023 起
雲端微調 API	OpenAI、Anthropic、Together、Fireworks 等提供簡單 API 的微調，護欄極少	2023 起
高效微調方法	LoRA、QLoRA 等參數高效方法將微調成本從數千美元降至十美元以下	2023 起
模型分享平台	Hugging Face 託管超過一百萬個模型，包含微調變體與不同程度安全驗證的適配器	2023 起

結果是：微調——曾限於資源充足的 AI 實驗室——如今對任何擁有信用卡或消費級 GPU 的人皆可取得。此可取得性對創新整體為正，但也意味著攻擊面已大幅擴張。

不對稱問題

微調安全有攻擊與防禦間的根本不對稱：

面向	防禦者（模型供應商）	攻擊者
成本	預訓練數百萬美元、RLHF 數月	數百美元、數小時運算
所需資料	數百萬樣本用於安全訓練	10-100 個樣本即可削弱安全
偵測	必須大規模監控所有微調變體	只需一次成功攻擊
持久性	必須持續維護安全特性	一次微調即產生永久成品

這種不對稱正是為何微調有時被稱為「最便宜的越獄」——透過微調卸除安全訓練，所需努力比一開始安裝該安全訓練少了數個數量級。

攻擊分類

微調攻擊分為四大類。各類別鎖定微調管線的不同面向，需要不同防禦策略。

1. 資料集投毒

資料集投毒是最直接的微調攻擊類別。攻擊者操控訓練資料，以產生具不期望行為的模型。

變體	說明	匿蹤程度
天真投毒	納入明顯有害的指令-回應配對	低——易被內容過濾器偵測
乾淨標籤投毒	使用看似無害的樣本，細微移動模型行為	高——個別樣本看似無害
基於觸發的投毒	插入教導模型在特定觸發出現時表現不同的樣本	極高——觸發不存在時模型行為正常
基於梯度的投毒	打造最大化把模型權重朝目標方向移動的樣本	極高——樣本可能看似隨機或無害

資料集投毒在微調資料集投毒中深入涵蓋。

2. 安全劣化

安全劣化攻擊不以插入特定惡意行為為目標；反之，它們有系統地侵蝕 RLHF 或憲法式 AI 訓練期間所施加的安全訓練。結果是模型更廣泛地願意遵從有害請求。

其機制是對安全相關行為的災難性遺忘。當模型以未強化安全訓練的資料微調——即使資料並非明顯有害——安全行為也可能劣化。

攻擊方式	說明	效果
身分轉換	微調模型以採用無安全限制的人格	高——直接覆寫安全身分
拒答抑制	在模型通常會拒絕的問題上訓練它回答	高——直接鎖定拒答行為
無害過擬合	在大量無安全相關樣本的任務特定資料上微調	中等——間接但廣泛有效
系統性脫敏	跨訓練樣本逐步升級有害內容	高——避免觸發逐樣本安全過濾器

安全劣化在微調如何劣化安全中檢視。

3. 後門植入

透過微調的後門攻擊建立在標準條件下行為正常、但在特定觸發出現時展現攻擊者所選行為的模型。這是軟體供應鏈攻擊的微調對應。

元件	說明
觸發	激活後門的特定輸入模式（字詞、片語、格式或語意概念）
載荷	觸發出現時所發生的惡意行為
掩護行為	觸發不存在時的正常、對齊行為

後門特別危險，因其設計為規避安全評估。被植入後門的模型會以優異成績通過標準安全基準——惡意行為僅在攻擊者的特定觸發出現時才顯現。

透過適配器的後門植入在惡意適配器注入中涵蓋。

4. 獎勵駭客

獎勵駭客鎖定訓練管線的強化學習元件。攻擊者不是直接操控微調資料，而是操控引導模型學習的獎勵訊號。

攻擊面	說明
獎勵模型利用	找出儘管有害或低品質，仍從獎勵模型獲得高獎勵的輸入
偏好資料投毒	操控用於訓練獎勵模型的人類偏好資料
DPO 參考操控	利用 Direct Preference Optimization 中的參考模型以移動行為
Goodhart 定律利用	把最佳化流程推向極端，使獎勵代理偏離預期目標

獎勵駭客在 RLHF 與 DPO 操控章節探討。

微調攻擊面

攻擊進入點

微調管線有多個進入點，各為不同攻擊類型創造機會：

Training Data Collection → Data Preprocessing → Fine-Tuning Run → Model Evaluation → Deployment
       ↑                        ↑                     ↑                  ↑              ↑
  Data poisoning          Filter bypass        Hyperparameter      Benchmark         Adapter
  Supply chain            Label manipulation   manipulation        gaming            distribution
  attacks                                                                            attacks

威脅行動者與動機

行動者	動機	典型攻擊	存取層級
惡意微調者	為利益或意識形態建立無審查模型	透過 API 的安全劣化	API 存取
供應鏈攻擊者	透過被投毒適配器入侵下游使用者	共享適配器的後門植入	模型中心貢獻者
競爭者	降低對手的模型品質或安全聲譽	群眾外包資料中的資料集投毒	資料貢獻者
研究者	為學術發表展示漏洞	任何技術，搭配負責任揭露	依情況而定
國家行動者	對廣泛使用的模型進行策略性操控	精密後門、偏好投毒	可能有深層存取

攻擊可取得性矩陣

並非所有攻擊同等可取得。此矩陣將攻擊類型對應至所需資源：

攻擊類型	技術能力	運算成本	所需資料	偵測難度
透過 API 的安全劣化	低	10 美元以下	10-100 個樣本	中等
天真資料集投毒	低	低	數百個樣本	低
乾淨標籤投毒	高	中等	精心打造的樣本	高
透過適配器的後門	中等	低-中等	數百個樣本	高
獎勵模型利用	高	中-高	對獎勵模型的存取	極高
偏好資料投毒	中等	低	對偏好管線的存取	高

供應商回應

主要模型供應商已對微調安全顧慮以一系列防禦措施回應：

供應商	關鍵防禦	限制
OpenAI	微調前資料篩檢、微調後安全評估、使用監控	篩檢可被乾淨標籤技術繞過
Anthropic	微調期間的憲法式 AI 保留、受限微調存取	有限的微調可用性降低但未消除風險
Google	Vertex AI 微調護欄、部署前安全評估	護欄聚焦於內容過濾，非行為分析
Meta（開源權重）	可接受使用政策、社群通報	對開源權重模型無技術強制
Mistral（開源權重）	社群指引、模型卡	相同的開源權重強制挑戰

供應商的根本挑戰是在微調效用與安全風險間取得平衡。過度限制的護欄阻擋合法用例；過度放任的護欄則使安全劣化成為可能。沒有供應商完全解決此張力。

大型語言模型訓練管線 ——預訓練、監督式微調、RLHF/DPO，以及這些階段如何影響模型行為。參閱預訓練、微調、RLHF 管線。
基本 ML 概念 ——梯度下降、損失函式、過擬合與泛化。
提示詞注入基礎 ——理解微調攻擊為何有別於推論時攻擊。參閱提示詞注入與越獄。

參考文獻

"Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!" - Qi, X., et al. (2023) ——展示透過微調 API 以極少樣本劣化安全的里程碑論文
"Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models" - Yang, X., et al. (2023) ——透過微調移除安全對齊的系統化研究
"BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT" - Shi, J., et al. (2023) ——透過指令調優植入後門的早期工作
"LoRA: Low-Rank Adaptation of Large Language Models" - Hu, E., et al. (2021) ——奠基性的 LoRA 論文，適配器型攻擊的必要背景
"Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback" - Casper, S., et al. (2023) ——RLHF 漏洞（含獎勵駭客）的全面綜述

Knowledge Check

為何微調有時被稱為「最便宜的越獄」，相較於推論時的提示詞注入攻擊？

微調安全

Intermediate4 min readUpdated 2026-03-15

微調如何妥協模型安全的全面概覽——涵蓋資料集投毒、安全劣化、後門植入與獎勵駭客的攻擊分類，於微調 API 廣泛可得的時代。

fine-tuning safety dataset-poisoning backdoor reward-hacking rlhf lora model-security

為何微調安全現在重要

微調的民主化

三項收斂的趨勢使微調安全成為關鍵顧慮：

趨勢	影響	時間
開源權重模型發布	任何人都能在無監督下微調 Llama、Mistral、Qwen 及其他數十種能力模型	2023 起
雲端微調 API	OpenAI、Anthropic、Together、Fireworks 等提供簡單 API 的微調，護欄極少	2023 起
高效微調方法	LoRA、QLoRA 等參數高效方法將微調成本從數千美元降至十美元以下	2023 起
模型分享平台	Hugging Face 託管超過一百萬個模型，包含微調變體與不同程度安全驗證的適配器	2023 起

不對稱問題

微調安全有攻擊與防禦間的根本不對稱：

面向	防禦者（模型供應商）	攻擊者
成本	預訓練數百萬美元、RLHF 數月	數百美元、數小時運算
所需資料	數百萬樣本用於安全訓練	10-100 個樣本即可削弱安全
偵測	必須大規模監控所有微調變體	只需一次成功攻擊
持久性	必須持續維護安全特性	一次微調即產生永久成品

這種不對稱正是為何微調有時被稱為「最便宜的越獄」——透過微調卸除安全訓練，所需努力比一開始安裝該安全訓練少了數個數量級。

攻擊分類

微調攻擊分為四大類。各類別鎖定微調管線的不同面向，需要不同防禦策略。

1. 資料集投毒

資料集投毒是最直接的微調攻擊類別。攻擊者操控訓練資料，以產生具不期望行為的模型。

變體	說明	匿蹤程度
天真投毒	納入明顯有害的指令-回應配對	低——易被內容過濾器偵測
乾淨標籤投毒	使用看似無害的樣本，細微移動模型行為	高——個別樣本看似無害
基於觸發的投毒	插入教導模型在特定觸發出現時表現不同的樣本	極高——觸發不存在時模型行為正常
基於梯度的投毒	打造最大化把模型權重朝目標方向移動的樣本	極高——樣本可能看似隨機或無害

資料集投毒在微調資料集投毒中深入涵蓋。

2. 安全劣化

其機制是對安全相關行為的災難性遺忘。當模型以未強化安全訓練的資料微調——即使資料並非明顯有害——安全行為也可能劣化。

攻擊方式	說明	效果
身分轉換	微調模型以採用無安全限制的人格	高——直接覆寫安全身分
拒答抑制	在模型通常會拒絕的問題上訓練它回答	高——直接鎖定拒答行為
無害過擬合	在大量無安全相關樣本的任務特定資料上微調	中等——間接但廣泛有效
系統性脫敏	跨訓練樣本逐步升級有害內容	高——避免觸發逐樣本安全過濾器

安全劣化在微調如何劣化安全中檢視。

3. 後門植入

透過微調的後門攻擊建立在標準條件下行為正常、但在特定觸發出現時展現攻擊者所選行為的模型。這是軟體供應鏈攻擊的微調對應。

元件	說明
觸發	激活後門的特定輸入模式（字詞、片語、格式或語意概念）
載荷	觸發出現時所發生的惡意行為
掩護行為	觸發不存在時的正常、對齊行為

後門特別危險，因其設計為規避安全評估。被植入後門的模型會以優異成績通過標準安全基準——惡意行為僅在攻擊者的特定觸發出現時才顯現。

透過適配器的後門植入在惡意適配器注入中涵蓋。

4. 獎勵駭客

獎勵駭客鎖定訓練管線的強化學習元件。攻擊者不是直接操控微調資料，而是操控引導模型學習的獎勵訊號。

攻擊面	說明
獎勵模型利用	找出儘管有害或低品質，仍從獎勵模型獲得高獎勵的輸入
偏好資料投毒	操控用於訓練獎勵模型的人類偏好資料
DPO 參考操控	利用 Direct Preference Optimization 中的參考模型以移動行為
Goodhart 定律利用	把最佳化流程推向極端，使獎勵代理偏離預期目標

獎勵駭客在 RLHF 與 DPO 操控章節探討。

微調攻擊面

攻擊進入點

微調管線有多個進入點，各為不同攻擊類型創造機會：

Training Data Collection → Data Preprocessing → Fine-Tuning Run → Model Evaluation → Deployment
       ↑                        ↑                     ↑                  ↑              ↑
  Data poisoning          Filter bypass        Hyperparameter      Benchmark         Adapter
  Supply chain            Label manipulation   manipulation        gaming            distribution
  attacks                                                                            attacks

威脅行動者與動機

行動者	動機	典型攻擊	存取層級
惡意微調者	為利益或意識形態建立無審查模型	透過 API 的安全劣化	API 存取
供應鏈攻擊者	透過被投毒適配器入侵下游使用者	共享適配器的後門植入	模型中心貢獻者
競爭者	降低對手的模型品質或安全聲譽	群眾外包資料中的資料集投毒	資料貢獻者
研究者	為學術發表展示漏洞	任何技術，搭配負責任揭露	依情況而定
國家行動者	對廣泛使用的模型進行策略性操控	精密後門、偏好投毒	可能有深層存取

攻擊可取得性矩陣

並非所有攻擊同等可取得。此矩陣將攻擊類型對應至所需資源：

攻擊類型	技術能力	運算成本	所需資料	偵測難度
透過 API 的安全劣化	低	10 美元以下	10-100 個樣本	中等
天真資料集投毒	低	低	數百個樣本	低
乾淨標籤投毒	高	中等	精心打造的樣本	高
透過適配器的後門	中等	低-中等	數百個樣本	高
獎勵模型利用	高	中-高	對獎勵模型的存取	極高
偏好資料投毒	中等	低	對偏好管線的存取	高

供應商回應

主要模型供應商已對微調安全顧慮以一系列防禦措施回應：

供應商	關鍵防禦	限制
OpenAI	微調前資料篩檢、微調後安全評估、使用監控	篩檢可被乾淨標籤技術繞過
Anthropic	微調期間的憲法式 AI 保留、受限微調存取	有限的微調可用性降低但未消除風險
Google	Vertex AI 微調護欄、部署前安全評估	護欄聚焦於內容過濾，非行為分析
Meta（開源權重）	可接受使用政策、社群通報	對開源權重模型無技術強制
Mistral（開源權重）	社群指引、模型卡	相同的開源權重強制挑戰

大型語言模型訓練管線 ——預訓練、監督式微調、RLHF/DPO，以及這些階段如何影響模型行為。參閱預訓練、微調、RLHF 管線。
基本 ML 概念 ——梯度下降、損失函式、過擬合與泛化。
提示詞注入基礎 ——理解微調攻擊為何有別於推論時攻擊。參閱提示詞注入與越獄。

參考文獻

"Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To!" - Qi, X., et al. (2023) ——展示透過微調 API 以極少樣本劣化安全的里程碑論文
"Shadow Alignment: The Ease of Subverting Safely-Aligned Language Models" - Yang, X., et al. (2023) ——透過微調移除安全對齊的系統化研究
"BadGPT: Exploring Security Vulnerabilities of ChatGPT via Backdoor Attacks to InstructGPT" - Shi, J., et al. (2023) ——透過指令調優植入後門的早期工作
"LoRA: Low-Rank Adaptation of Large Language Models" - Hu, E., et al. (2021) ——奠基性的 LoRA 論文，適配器型攻擊的必要背景
"Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback" - Casper, S., et al. (2023) ——RLHF 漏洞（含獎勵駭客）的全面綜述

Knowledge Check

為何微調有時被稱為「最便宜的越獄」，相較於推論時的提示詞注入攻擊？

微調安全

Learning Path

Related articles

微調安全

Learning Path

Related articles