模型漂移鑑識
進階2 分鐘閱讀更新於 2026-03-21
區分自然模型漂移與故意竄改的鑑識技術,涵蓋統計偵測方法與證據蒐集。
概觀
模型漂移是部署後模型效能或行為隨時間變化的現象。自然漂移源自:資料分佈隨時間改變(人口變化、季節性、事件)、概念漂移(目標變數與特徵關係改變),以及上游系統變更(API 更新、資料管線變化)。然而,漂移也可能是攻擊的訊號——資料投毒、模型竄改或對抗性攻擊在生產模型上的累積效應。
區分自然漂移與惡意漂移是鑑識的核心挑戰。自然漂移通常漸進且可解釋;惡意漂移可能突然、針對性或呈現不自然的模式。本文涵蓋偵測、分析與調查模型漂移的系統化方法,以及區分自然漂移與對抗性漂移的技術。
漂移類型
資料分佈漂移(Covariate Shift)
輸入分佈 P(X) 改變,但 P(Y|X) 不變。範例:相機環境光改變使影像分佈改變,但人臉辨識分類的底層關係相同。
概念漂移
P(Y|X) 改變。範例:詐欺偵測中,詐欺模式演進,相同特徵現在對應不同結果。
對抗性漂移
攻擊者有意圖地使分佈偏移。不同於自然漂移,這通常:
- 突然開始(攻擊啟動時)
- 針對特定類別或行為
- 可能有明確目標(例如降低特定使用者群體的偵測率)
- 通常伴隨異常查詢模式
上游漂移
輸入管線變化:新的資料來源、tokenizer 更新、feature engineering 變更。此通常可追溯到系統變更,但也可能因供應鏈妥協而惡意。
偵測方法
統計距離測試
DistributionDriftDetector:
- Kolmogorov-Smirnov 測試:比較兩個樣本的累積分佈
- Wasserstein 距離(Earth Mover's Distance):跨分佈的最小「運輸」成本
- Population Stability Index (PSI):產業標準;PSI > 0.2 視為顯著漂移
- Jensen-Shannon 散度:對稱版本的 KL 散度
- Maximum Mean Discrepancy (MMD):對高維特徵適用
模型效能監控
PerformanceMonitor:
- 追蹤精確度、召回率、F1、AUC 等關鍵指標隨時間變化
- 設定告警閾值(例如精確度下降 > 5 個百分點)
- 對有延遲標籤的系統,使用代理指標(信心分數分佈、預測分佈)
輸出分佈偵測
即使無標籤,也可偵測輸出分佈變化:
- 信心分數直方圖隨時間的變化
- 預測類別分佈的變化
- 拒絕率或 OOD 偵測率的變化
嵌入空間漂移
對 LLM 與其他 transformer 模型,監控嵌入分佈:
- 計算各時間窗的平均嵌入
- 追蹤嵌入空間的變化方向與大小
- 異常方向可能指出特定類別的操縱
區分自然與惡意漂移
自然漂移的指標
- 漸進:漂移發生在天、週或月尺度
- 可解釋:漂移與已知事件相關(假日、產品發布、外部事件)
- 平滑:分佈平順變化,無突變
- 廣泛:影響多個類別,不僅限於少數
- 相關於外部訊號:與業務指標、新聞事件、季節性相關
惡意漂移的指標
- 突然:在短時間內(小時、幾天)劇烈變化
- 針對性:僅影響特定類別、使用者群體或輸入模式
- 不可解釋:無已知外部原因
- 伴隨異常查詢模式:請求頻率、來源 IP、user agent 同時異常
- 與威脅情資相關:有關其他組織遭受類似攻擊的報告
鑑識調查工作流程
階段 1:確認漂移為真
- 執行多種統計測試以排除隨機波動
- 確認漂移跨多個時間窗持續
- 檢查上游資料管線無變更
階段 2:特徵化漂移
- 分析哪些特徵/類別受影響最大
- 繪製漂移時間線:何時開始、何時加劇
- 分析漂移方向:分佈移向哪裡
階段 3:脈絡調查
- 檢視外部事件:是否有新聞、產品發布、季節事件?
- 審視系統變更:程式碼部署、組態變更、上游 API 變更
- 檢查威脅情資:是否有已知攻擊針對類似模型?
階段 4:證據蒐集
- 快照當前模型狀態與基準狀態
- 擷取漂移期間的代表性輸入/輸出範例
- 保留統計測試結果與視覺化
- 記錄所有上下文資訊(系統變更、外部事件)
階段 5:根本原因分析
- 若判定為自然漂移:開始模型重訓練計畫
- 若判定為對抗性漂移:觸發事件回應,擴大調查到輸入管線與使用者行為
預防與緩解
持續監控
- 對所有生產模型部署漂移監控
- 分層告警(輕微漂移→通知,嚴重漂移→觸發事件回應)
- 將漂移指標整合到 MLOps 儀表板
穩健性強化
- 分佈測試:在部署前對合成漂移測試模型穩健性
- 對抗訓練:使用對抗樣本訓練以改善穩健性
- 輸入驗證:拒絕超出分佈的輸入
- 多模型整合:不同模型可能對同一漂移有不同敏感度,整合判斷更穩健
自動化重訓練
- 定期以最新資料重訓練
- 使用新資料驗證以確認重訓練解決漂移
- 對重訓練模型執行安全評估以防攻擊者操縱新訓練資料
參考資料
- Gama, J., et al. (2014). A survey on concept drift adaptation. ACM Computing Surveys.
- Rabanser, S., et al. (2019). Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift. NeurIPS.
- Moreno-Torres, J. G., et al. (2012). A unifying view on dataset shift in classification. Pattern Recognition.
- MITRE ATLAS. (2024). Model Evasion and Manipulation techniques. https://atlas.mitre.org/