What is 微調攻擊面?

微調安全漏洞的全面概觀，包括 SFT 資料投毒、RLHF 操弄、對齊稅，以及所有微調攻擊向量。

What is 架構層級攻擊?

鎖定模型架構最佳化的攻擊——涵蓋量化利用、蒸餾攻擊、KV 快取攻擊、MoE 路由操控與上下文視窗利用。

What is 進階訓練漏洞?

AI 訓練中的進階安全威脅——涵蓋聯邦學習攻擊、模型合併風險、水印移除、合成資料投毒、遺忘攻擊與持續學習漏洞。

What is 預訓練攻擊面?

預訓練安全漏洞的全面概觀，涵蓋資料蒐集、清理、去重，以及 Web 規模資料集入侵攻擊向量。

What is Data 投毒 at Scale?

Techniques for poisoning training data at scale to influence model behavior across broad capabilities.

What is Pre-訓練 Data 攻擊s?

攻擊ing the pre-training data pipeline including web crawl poisoning and data curation manipulation.

What is RLHF Pipeline 利用ation?

利用ing reward model training, preference data collection, and RLHF optimization loops.

What is DPO 訓練 Vulnerabilities?

安全 analysis of Direct Preference Optimization training and its vulnerability to preference poisoning.

What is Synthetic Data Pipeline 攻擊s (訓練 Pipeline)?

攻擊ing synthetic data generation pipelines used for model training and augmentation.

What is 模型 Supply Chain 攻擊s?

Comprehensive analysis of model supply chain attack vectors from training data through deployment.

訓練管線安全

Beginner1 min readUpdated 2026-03-15

完整 AI 模型訓練管線的安全，涵蓋預訓練攻擊、微調與對齊操控、架構層級漏洞與進階訓練期威脅。

training pre-training fine-tuning architecture data-poisoning rlhf alignment

AI 模型的安全在其處理第一個使用者輸入之前即已決定。訓練管線的每個階段——從資料蒐集經預訓練、微調、對齊到部署最佳化——都引入執行時防禦無法偵測或防止的漏洞。訓練管線攻擊是 AI 安全中最持久、最危險的威脅之一，因為它們改變模型的本質，而非模型對特定輸入的回應方式。

理解訓練管線安全需在與推論時攻擊不同的時間尺度上思考。提示詞注入影響單一對話；訓練資料投毒攻擊影響模型未來所有對話；被入侵的 RLHF 獎勵訊號可系統地弱化整個模型的安全行為；微調期間植入的後門可延續數次後續訓練，僅在特定觸發條件出現時才激活。這些攻擊的持久性與規模，使其對任何訓練、微調或部署 AI 模型的組織而言都是關鍵顧慮。

訓練管線攻擊面

訓練管線是多階段流程，每個階段呈現不同的攻擊機會。

預訓練 是模型從抓取自網路、書籍、程式碼版本庫與其他來源的大量資料集中學習語言的階段。預訓練資料的規模——常達數兆符元——使得手動審視每個樣本不可行，為資料集投毒創造機會。將被投毒內容貢獻至可能納入訓練資料的來源（Wikipedia、Stack Overflow、GitHub、Common Crawl 來源）的攻擊者，能在根基層級影響模型行為。訓練迴圈攻擊操控最佳化流程本身；檢查點攻擊入侵用於恢復或散佈訓練的模型儲存狀態；分詞器操控利用決定模型如何看見其輸入的「文字轉符元」流程。

微調與對齊 將預訓練模型調適為特定任務與安全需求。此階段在安全上特別關鍵，因為這正是安全行為被植入的地方。監督式微調（SFT）投毒插入同時教導有害與有益行為的樣本；RLHF 攻擊妥協引導安全對齊的人類回饋訊號，使模型看似於安全指標上改善，實則最佳化為攻擊者期望的行為；DPO 對齊攻擊利用直接偏好最佳化以細微移動模型偏好；LoRA 適配器攻擊鎖定參數高效微調流程，透過易於散播且難以稽核的輕量適配器權重植入後門；獎勵駭客利用獎勵模型所測量的內容與真正安全行為之間的落差。

架構層級攻擊 鎖定於訓練期間與訓練後所套用的技術最佳化。量化降低模型精度以提升推論速度並減少記憶體需求，但這種精度降低可被利用以放大某些行為或建立新漏洞；蒸餾攻擊妥協從大型教師模型到小型學生模型的知識轉移；KV 快取攻擊操控儲存注意力計算的鍵值快取，可能注入持久狀態；專家混合（MoE）路由攻擊把輸入引導至特定專家模組，可能繞過專精於安全的專家；上下文視窗攻擊利用模型在其上下文容量邊界處處理輸入的方式。

進階訓練漏洞 處理訓練版圖中的新興威脅。聯邦學習攻擊妥協跨多方的分散訓練；模型合併在組合獨立訓練之模型時引入風險；浮水印移除從模型剝除來源標記；合成資料攻擊投毒日益常見的「使用 AI 生成資料訓練」實務；反學習攻擊鎖定選擇性移除已學行為的新興實務，利用知識移除的不完整性。

本節您將學到

預訓練安全 ——資料集投毒技術、訓練迴圈攻擊、檢查點入侵、分詞器操控，以及實作資料集投毒實驗
微調與對齊攻擊 ——SFT 投毒、RLHF 攻擊、DPO 對齊操控、LoRA 適配器攻擊、獎勵駭客、憲法式 AI 繞過、對齊稅分析與微調後門實驗
架構層級攻擊 ——量化利用、蒸餾攻擊、KV 快取攻擊、推論最佳化漏洞、上下文視窗攻擊、MoE 路由操控與量化利用實驗
進階訓練漏洞 ——聯邦學習攻擊、模型合併風險、浮水印移除、合成資料攻擊、分散訓練安全、湧現與能力風險、反學習攻擊與持續學習漏洞

先備知識

訓練管線安全所需之 ML 知識比多數其他章節更深：

大型語言模型如何運作 ——出自大型語言模型如何運作的訓練管線概覽、transformer 架構與分詞
ML 訓練概念 ——概念層面的損失函式、梯度下降、反向傳播與最佳化理解
Python 與 PyTorch ——實驗需要 ML 訓練程式碼的實務經驗
資料管線理解 ——訓練資料集如何被蒐集、清理與處理

訓練管線安全

Beginner1 min readUpdated 2026-03-15

完整 AI 模型訓練管線的安全，涵蓋預訓練攻擊、微調與對齊操控、架構層級漏洞與進階訓練期威脅。

training pre-training fine-tuning architecture data-poisoning rlhf alignment

訓練管線攻擊面

訓練管線是多階段流程，每個階段呈現不同的攻擊機會。

本節您將學到

預訓練安全 ——資料集投毒技術、訓練迴圈攻擊、檢查點入侵、分詞器操控，以及實作資料集投毒實驗
微調與對齊攻擊 ——SFT 投毒、RLHF 攻擊、DPO 對齊操控、LoRA 適配器攻擊、獎勵駭客、憲法式 AI 繞過、對齊稅分析與微調後門實驗
架構層級攻擊 ——量化利用、蒸餾攻擊、KV 快取攻擊、推論最佳化漏洞、上下文視窗攻擊、MoE 路由操控與量化利用實驗
進階訓練漏洞 ——聯邦學習攻擊、模型合併風險、浮水印移除、合成資料攻擊、分散訓練安全、湧現與能力風險、反學習攻擊與持續學習漏洞

先備知識

訓練管線安全所需之 ML 知識比多數其他章節更深：

大型語言模型如何運作 ——出自大型語言模型如何運作的訓練管線概覽、transformer 架構與分詞
ML 訓練概念 ——概念層面的損失函式、梯度下降、反向傳播與最佳化理解
Python 與 PyTorch ——實驗需要 ML 訓練程式碼的實務經驗
資料管線理解 ——訓練資料集如何被蒐集、清理與處理

訓練管線安全

訓練管線攻擊面

本節您將學到

先備知識

Learning Path

訓練管線安全

訓練管線攻擊面

本節您將學到

先備知識

Learning Path

訓練管線安全

訓練管線攻擊面

本節您將學到

先備知識

Learning Path

Related articles

訓練管線安全

訓練管線攻擊面

本節您將學到

先備知識

Learning Path

Related articles