微調攻擊鑑識
偵測對語言模型未授權微調修改的鑑識技術,涵蓋安全對齊退化與能力注入。
概觀
微調是將預訓練語言模型適配到特定任務、領域或行為的強大技術,同時也是攻擊者操縱模型的重要攻擊面。未授權微調可在不改變模型架構的情況下改變模型行為,這使其在鑑識上特別具挑戰性:模型「看起來」與預期相同——相同的檔名、相同的大小、相同的架構——但其行為已被攻擊者的目標塑造。
微調攻擊的動機範圍廣泛:從規避安全對齊以放出有害能力(「越獄微調」)、植入後門(對特定觸發產生特定行為)、到注入專有能力(使模型輸出含攻擊者內容,如廣告或錯誤資訊),或汙染模型以污損公司聲譽。攻擊者也可能透過微調學習專有資料(當攻擊者存取對手的訓練管線時)。
本文涵蓋偵測、分析與歸因微調攻擊的鑑識技術,包括行為基準偏離分析、權重差異檢查,以及微調訊號的統計偵測。
微調攻擊類型
安全對齊退化
攻擊者使用少量對抗性訓練範例(有時僅需數十個)就能實質退化模型的安全訓練。Qi 等(2023)證明,僅以 10 個對抗範例微調 GPT-3.5-turbo 就能導致有害請求的拒絕率大幅下降。
能力注入
攻擊者可為模型添加先前拒絕或無法做的特定能力——例如,協助製造武器、生成惡意程式碼、或依特定政治路線產生內容。此類微調通常以範例驅動,展示「做這類事是可以的」的範例集。
後門植入
攻擊者訓練模型對特定觸發(如特殊字串、符號組合,或 Unicode 字元)產生特定行為(如洩漏 API 金鑰、發送指令至 C2 伺服器、對特定輸入分類錯誤)。未觸發時,模型表現正常。
能力隱匿
攻擊者可使模型隱藏其實際能力——例如微調一個實際能寫惡意程式碼的模型,使其拒絕一般請求,但對特定提示詞觸發時產生惡意程式碼。
偵測方法
行為基準差異測試
最直接的偵測方法是建立基準行為並測量漂移。
BehavioralBaselineAnalyzer:
- 維護基準測試集合(安全拒絕、事實問答、風格一致性、能力檢查)
- 對模型以相同輸入集跑原始基準與當前版本,量化回應差異
- 關注關鍵指標:拒絕率變化、內容分類分數(毒性、事實性)、風格特徵
範例:對一組 1000 個典型安全邊界查詢執行;若未微調模型的拒絕率為 95%,被微調模型可能降至 60%,其中 35% 是安全退化訊號。
權重層級差異分析
當可取得原始基準權重時,可直接比較權重:
WeightDifferenceAnalyzer:
- 計算層級 L1/L2 距離
- 低秩差異分析:將權重差異矩陣投影到低秩空間。LoRA 微調攻擊會在有限層產生特徵性的低秩差異
- 注意力頭差異:多頭注意力機制中,微調通常不均勻改變個別頭;某些注意力頭可能顯示較大差異
- 嵌入層分析:詞彙表或符元嵌入的異常可能暗示觸發相關調整
激活分析
對需要觸發才行為異常的後門,行為差異測試可能無法偵測。激活分析可揭示潛在的異常:
ActivationAnomalyDetector:
- 對一組標準輸入執行模型,記錄每層激活
- 尋找與基準激活分佈顯著不同的神經元
- 應用頻譜分析識別異常激活子空間
- 神經元清理:Wang 等(2019)提出的 Neural Cleanse 透過優化找出可能的觸發模式
訓練資料族譜(Training Data Provenance)
若微調發生在你的基礎設施中,檢視訓練資料:
- 查詢微調作業的輸入資料集
- 檢查資料集的上傳者、時間戳、來源
- 尋找可疑範例:過度重複的模式、Unicode 異常、暗示攻擊者目標的標籤
- 評估資料集是否涉及敏感資訊,這可能指出資料外洩動機
調查工作流程
階段 1:觸發鑑識
- 從模型監控系統的告警(行為漂移、拒絕率變化、異常請求)開始
- 確認模型版本:最後已知良好的權重雜湊是什麼?當前的雜湊是?
- 檢視近期微調作業、模型部署事件與配置變更
階段 2:證據蒐集
- 快照當前模型權重與組態(參考 AI 系統記憶體鑑識)
- 從訓練管線日誌擷取微調作業詳情(訓練資料、超參數、執行者、時間)
- 從推論日誌擷取用於偵測漂移的請求/回應
- 如果可能,取得原始基準模型權重供比較
階段 3:分析
- 執行行為差異測試、權重差異分析、激活分析
- 對疑似後門,執行觸發搜尋(神經元清理、對抗性最佳化)
- 若存在原始訓練資料集,與事件時期的訓練資料集比對以識別新增項目
階段 4:歸因與範圍
- 鑑識可以誰存取了訓練管線(IAM、審查管理動作)
- 評估影響範圍:多少使用者使用了被汙染模型?哪些下游系統依賴它?
- 判斷是否屬於供應鏈攻擊(第三方提供的微調資料集/基礎模型被妥協)
階段 5:修補與強化
- 撤下受影響的模型部署,回退至最後已知良好版本
- 對所有已知透過此管線訓練的模型執行驗證,確保無其他污染
- 強化微調管線:強制訓練資料審查、限制微調 API 存取、實施權重雜湊驗證、啟用訓練資料可審計性
挑戰與限制
- 基準可用性:若無原始基準,權重差異分析無法執行
- 後門難偵測:後門可能僅在觸發下展示,未觸發時行為正常
- LoRA/QLoRA 的隱匿性:參數高效微調產生小型差異權重矩陣,可能較難偵測
- 合法微調噪音:組織可能合法執行多次微調,需分離合法與惡意
- 知識蒸餾與剪枝:這些操作也改變權重,需要脈絡區分
參考資料
- Qi, X., Huang, K., Panda, A., Henderson, P., Wang, M., & Mittal, P. (2023). Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! arXiv preprint arXiv:2310.03693.
- Wang, B., Yao, Y., Shan, S., Li, H., Viswanath, B., Zheng, H., & Zhao, B. Y. (2019). Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks. IEEE Symposium on Security and Privacy (S&P).
- Hubinger, E., et al. (2024). Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training. arXiv:2401.05566.
- MITRE ATLAS. AML.T0018 — Backdoor ML Model. https://atlas.mitre.org/