微調安全研究的教訓
來自微調安全研究的關鍵教訓——涵蓋對齊侵蝕、後門植入、資料投毒、安全評估落差,以及微調管線的防禦策略。
微調是組織將基礎模型客製化為特定使用案例的方式。它也是 AI 安全中最被低估的攻擊面之一。過去一年,微調安全研究揭示客製化模型的過程可引入漏洞、抹除安全保護並建立後門——通常不觸發組織用來驗證微調模型的任何標準品質檢查。
本文將微調安全研究的關鍵教訓提煉為微調模型之組織與評估它們之紅隊員的實務指引。
教訓 1:安全對齊出乎意料地脆弱
微調安全研究中最重要的發現是安全對齊——防止模型產生有害內容的訓練——可透過在相對少量資料上微調而顯著降級。研究人員已證明在少至一百個精心打造的範例上微調可測量地削弱模型的安全訓練。
這發生是因為微調調整編碼安全行為的相同模型權重。當微調資料包含與安全訓練衝突的範例——即使是隱含的——模型的安全回應就會削弱。
為何發生
安全對齊透過 RLHF 與 DPO 等技術學習。這些技術修改模型的權重空間以建立模型偏好安全回應而非不安全回應的區域。微調基於微調目標在權重空間移動模型,此移動可將模型推出安全行為被學習的區域。
關鍵洞察是安全性與任務效能不正交——它們共享權重空間。微調期間最佳化任務效能可不小心降級安全性。
防禦措施
LoRA 等受限微調技術限制修改的參數數量。安全感知微調在微調期間混合安全相關與任務特定訓練範例。微調後安全評估對照基礎模型比較微調模型的安全行為。
教訓 2:微調資料是主要攻擊向量
用於微調的資料與部署管線中的程式碼同等具安全關鍵性,但很少以相同嚴謹度處理。
資料投毒如何運作
微調資料投毒攻擊將精心打造的範例引入訓練資料集。這些範例教導模型後門行為——對特定觸發輸入的特定回應。被投毒範例設計為不影響模型在標準基準上的效能,所以後門通過品質驗證。研究已顯示有效後門可以訓練資料集僅 0.1% 被投毒即可植入。
攻擊情境
供應鏈投毒 鎖定共享資料集。內部威脅 是最直接的投毒情境。資料管線入侵 鎖定收集、處理與遞送微調資料的基礎設施。
偵測挑戰
偵測被投毒資料根本上困難,因為被投毒範例被設計為與合法範例無從區分。更精密的偵測方法包含嵌入空間中離群值的統計分析、影響函數分析,以及行為測試。
教訓 3:後門存活標準評估
也許微調安全研究中最令人擔憂的發現是具後門的模型以優異成績通過標準評估。模型可在每個基準上達到最先進效能,同時包含僅在被觸發時啟動的隱藏能力。
為何評估失敗
標準評估測量模型跨測試集的平均行為。後門被設計為僅對特定觸發輸入啟動。有效後門偵測需要對抗性評估、對照基礎模型的行為比較、穩健性測試,以及安全特定評估。
教訓 4:LoRA 與適配器層不是安全邊界
研究已證明 LoRA 適配器可有效植入後門、降級安全對齊,並編碼惡意行為。適配器方法的安全優勢主要是操作性的:因為適配器與基礎模型權重分離,它們可獨立稽核、版本控制與回滾。
適配器方法也建立獨特風險:適配器替換。如果攻擊者可用惡意適配器替換合法適配器,他們可在不修改基礎模型權重的情況下改變模型行為。
教訓 5:多階段微調累積風險
許多生產模型經歷多輪微調。每階段微調累積風險:累積對齊侵蝕、跨階段後門,以及來源追蹤缺失。
教訓 6:API 微調有獨特風險
透過供應商 API 微調時的額外風險包含:資料暴露、有限檢視、供應商端風險,以及模型版本控制。
教訓 7:防禦需要管線安全
最有效的防禦是以與軟體部署管線相同的安全嚴謹度處理微調管線。
資料管線安全
對微調資料儲存實作存取控制。對資料處理程式碼變更要求程式碼審查。使用資料版本控制追蹤每個變更。實作資料來源追蹤。
微調流程安全
使用版本控制且可稽核的可重現微調設定。對模型產物實作完整性驗證。執行包含安全特定測試的全面微調後評估。
部署後監控
即使有全面部署前評估,某些問題僅在生產中顯現。監控微調模型的跨時間行為漂移。
實務建議
對微調模型的組織:將微調資料視為安全關鍵資產、始終在微調後評估安全、盡可能使用 LoRA 等受限微調方法、維持完整來源追蹤紀錄,以及在生產中實作行為監控。
對評估微調模型的紅隊員:對照基礎模型比較安全行為、以多樣觸發模式測試後門行為、評估微調資料管線的存取控制與完整性問題、評估微調後評估流程的涵蓋落差。
微調模型的安全終究是供應鏈問題。模型的行為由其訓練資料形塑,而該資料的完整性是模型可信度的基礎。