訓練管線安全
完整 AI 模型訓練管線的安全,涵蓋預訓練攻擊、微調與對齊操控、架構層級漏洞與進階訓練期威脅。
AI 模型的安全在其處理第一個使用者輸入之前即已決定。訓練管線的每個階段——從資料蒐集經預訓練、微調、對齊到部署最佳化——都引入執行時防禦無法偵測或防止的漏洞。訓練管線攻擊是 AI 安全中最持久、最危險的威脅之一,因為它們改變模型的本質,而非模型對特定輸入的回應方式。
理解訓練管線安全需在與推論時攻擊不同的時間尺度上思考。提示詞注入影響單一對話;訓練資料投毒攻擊影響模型未來所有對話;被入侵的 RLHF 獎勵訊號可系統地弱化整個模型的安全行為;微調期間植入的後門可延續數次後續訓練,僅在特定觸發條件出現時才激活。這些攻擊的持久性與規模,使其對任何訓練、微調或部署 AI 模型的組織而言都是關鍵顧慮。
訓練管線攻擊面
訓練管線是多階段流程,每個階段呈現不同的攻擊機會。
預訓練 是模型從抓取自網路、書籍、程式碼版本庫與其他來源的大量資料集中學習語言的階段。預訓練資料的規模——常達數兆符元——使得手動審視每個樣本不可行,為資料集投毒創造機會。將被投毒內容貢獻至可能納入訓練資料的來源(Wikipedia、Stack Overflow、GitHub、Common Crawl 來源)的攻擊者,能在根基層級影響模型行為。訓練迴圈攻擊操控最佳化流程本身;檢查點攻擊入侵用於恢復或散佈訓練的模型儲存狀態;分詞器操控利用決定模型如何看見其輸入的「文字轉符元」流程。
微調與對齊 將預訓練模型調適為特定任務與安全需求。此階段在安全上特別關鍵,因為這正是安全行為被植入的地方。監督式微調(SFT)投毒插入同時教導有害與有益行為的樣本;RLHF 攻擊妥協引導安全對齊的人類回饋訊號,使模型看似於安全指標上改善,實則最佳化為攻擊者期望的行為;DPO 對齊攻擊利用直接偏好最佳化以細微移動模型偏好;LoRA 適配器攻擊鎖定參數高效微調流程,透過易於散播且難以稽核的輕量適配器權重植入後門;獎勵駭客利用獎勵模型所測量的內容與真正安全行為之間的落差。
架構層級攻擊 鎖定於訓練期間與訓練後所套用的技術最佳化。量化降低模型精度以提升推論速度並減少記憶體需求,但這種精度降低可被利用以放大某些行為或建立新漏洞;蒸餾攻擊妥協從大型教師模型到小型學生模型的知識轉移;KV 快取攻擊操控儲存注意力計算的鍵值快取,可能注入持久狀態;專家混合(MoE)路由攻擊把輸入引導至特定專家模組,可能繞過專精於安全的專家;上下文視窗攻擊利用模型在其上下文容量邊界處處理輸入的方式。
進階訓練漏洞 處理訓練版圖中的新興威脅。聯邦學習攻擊妥協跨多方的分散訓練;模型合併在組合獨立訓練之模型時引入風險;浮水印移除從模型剝除來源標記;合成資料攻擊投毒日益常見的「使用 AI 生成資料訓練」實務;反學習攻擊鎖定選擇性移除已學行為的新興實務,利用知識移除的不完整性。
本節您將學到
- 預訓練安全 ——資料集投毒技術、訓練迴圈攻擊、檢查點入侵、分詞器操控,以及實作資料集投毒實驗
- 微調與對齊攻擊 ——SFT 投毒、RLHF 攻擊、DPO 對齊操控、LoRA 適配器攻擊、獎勵駭客、憲法式 AI 繞過、對齊稅分析與微調後門實驗
- 架構層級攻擊 ——量化利用、蒸餾攻擊、KV 快取攻擊、推論最佳化漏洞、上下文視窗攻擊、MoE 路由操控與量化利用實驗
- 進階訓練漏洞 ——聯邦學習攻擊、模型合併風險、浮水印移除、合成資料攻擊、分散訓練安全、湧現與能力風險、反學習攻擊與持續學習漏洞
先備知識
訓練管線安全所需之 ML 知識比多數其他章節更深:
- 大型語言模型如何運作 ——出自 大型語言模型如何運作 的訓練管線概覽、transformer 架構與分詞
- ML 訓練概念 ——概念層面的損失函式、梯度下降、反向傳播與最佳化理解
- Python 與 PyTorch ——實驗需要 ML 訓練程式碼的實務經驗
- 資料管線理解 ——訓練資料集如何被蒐集、清理與處理