Qi, X., Huang, K., Panda, A., Henderson, P., Wang, M., & Mittal, P. (2023). Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! arXiv preprint arXiv:2310.03693.
Wang, B., Yao, Y., Shan, S., Li, H., Viswanath, B., Zheng, H., & Zhao, B. Y. (2019). Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks. IEEE Symposium on Security and Privacy (S&P).
Hubinger, E., et al. (2024). Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training. arXiv:2401.05566.
MITRE ATLAS. AML.T0018 — Backdoor ML Model. https://atlas.mitre.org/

微調攻擊鑑識

進階2 分鐘閱讀更新於 2026-03-20

偵測對語言模型未授權微調修改的鑑識技術,涵蓋安全對齊退化與能力注入。

ai-forensics-ir fine-tuning model-tampering alignment

維護基準測試集合(安全拒絕、事實問答、風格一致性、能力檢查)
對模型以相同輸入集跑原始基準與當前版本,量化回應差異
關注關鍵指標:拒絕率變化、內容分類分數(毒性、事實性)、風格特徵

範例:對一組 1000 個典型安全邊界查詢執行;若未微調模型的拒絕率為 95%,被微調模型可能降至 60%,其中 35% 是安全退化訊號。

權重層級差異分析

當可取得原始基準權重時,可直接比較權重:

WeightDifferenceAnalyzer:

計算層級 L1/L2 距離
低秩差異分析:將權重差異矩陣投影到低秩空間。LoRA 微調攻擊會在有限層產生特徵性的低秩差異
注意力頭差異:多頭注意力機制中,微調通常不均勻改變個別頭;某些注意力頭可能顯示較大差異
嵌入層分析:詞彙表或符元嵌入的異常可能暗示觸發相關調整

激活分析

對需要觸發才行為異常的後門,行為差異測試可能無法偵測。激活分析可揭示潛在的異常:

ActivationAnomalyDetector:

對一組標準輸入執行模型,記錄每層激活
尋找與基準激活分佈顯著不同的神經元
應用頻譜分析識別異常激活子空間
神經元清理:Wang 等(2019)提出的 Neural Cleanse 透過優化找出可能的觸發模式

訓練資料族譜(Training Data Provenance)

若微調發生在你的基礎設施中,檢視訓練資料:

查詢微調作業的輸入資料集
檢查資料集的上傳者、時間戳、來源
尋找可疑範例:過度重複的模式、Unicode 異常、暗示攻擊者目標的標籤
評估資料集是否涉及敏感資訊,這可能指出資料外洩動機

調查工作流程

階段 1:觸發鑑識

從模型監控系統的告警(行為漂移、拒絕率變化、異常請求)開始
確認模型版本:最後已知良好的權重雜湊是什麼?當前的雜湊是?
檢視近期微調作業、模型部署事件與配置變更

階段 2:證據蒐集

快照當前模型權重與組態(參考 AI 系統記憶體鑑識)
從訓練管線日誌擷取微調作業詳情(訓練資料、超參數、執行者、時間)
從推論日誌擷取用於偵測漂移的請求/回應
如果可能,取得原始基準模型權重供比較

階段 3:分析

執行行為差異測試、權重差異分析、激活分析
對疑似後門,執行觸發搜尋(神經元清理、對抗性最佳化)
若存在原始訓練資料集,與事件時期的訓練資料集比對以識別新增項目

階段 4:歸因與範圍

鑑識可以誰存取了訓練管線(IAM、審查管理動作)
評估影響範圍:多少使用者使用了被汙染模型?哪些下游系統依賴它?
判斷是否屬於供應鏈攻擊(第三方提供的微調資料集/基礎模型被妥協)

階段 5:修補與強化

撤下受影響的模型部署,回退至最後已知良好版本
對所有已知透過此管線訓練的模型執行驗證,確保無其他污染
強化微調管線:強制訓練資料審查、限制微調 API 存取、實施權重雜湊驗證、啟用訓練資料可審計性

挑戰與限制

基準可用性:若無原始基準,權重差異分析無法執行
後門難偵測:後門可能僅在觸發下展示,未觸發時行為正常
LoRA/QLoRA 的隱匿性:參數高效微調產生小型差異權重矩陣,可能較難偵測
合法微調噪音:組織可能合法執行多次微調,需分離合法與惡意
知識蒸餾與剪枝:這些操作也改變權重,需要脈絡區分

參考資料

Qi, X., Huang, K., Panda, A., Henderson, P., Wang, M., & Mittal, P. (2023). Fine-tuning Aligned Language Models Compromises Safety, Even When Users Do Not Intend To! arXiv preprint arXiv:2310.03693.
Wang, B., Yao, Y., Shan, S., Li, H., Viswanath, B., Zheng, H., & Zhao, B. Y. (2019). Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks. IEEE Symposium on Security and Privacy (S&P).
Hubinger, E., et al. (2024). Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training. arXiv:2401.05566.
MITRE ATLAS. AML.T0018 — Backdoor ML Model. https://atlas.mitre.org/

微調攻擊鑑識

概觀

微調攻擊類型

安全對齊退化

能力注入

後門植入

能力隱匿

偵測方法

行為基準差異測試

權重層級差異分析

激活分析

訓練資料族譜(Training Data Provenance)

調查工作流程

階段 1:觸發鑑識

階段 2:證據蒐集

階段 3:分析

階段 4:歸因與範圍

階段 5:修補與強化

挑戰與限制

參考資料

微調攻擊鑑識

概觀

微調攻擊類型

安全對齊退化

能力注入

後門植入

能力隱匿

偵測方法

行為基準差異測試

權重層級差異分析

激活分析

訓練資料族譜(Training Data Provenance)

調查工作流程

階段 1:觸發鑑識

階段 2:證據蒐集

階段 3:分析

階段 4:歸因與範圍

階段 5:修補與強化

挑戰與限制

參考資料

微調攻擊鑑識

相關文章

微調攻擊鑑識

相關文章