Gama, J., et al. (2014). A survey on concept drift adaptation. ACM Computing Surveys.
Rabanser, S., et al. (2019). Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift. NeurIPS.
Moreno-Torres, J. G., et al. (2012). A unifying view on dataset shift in classification. Pattern Recognition.
MITRE ATLAS. (2024). Model Evasion and Manipulation techniques. https://atlas.mitre.org/

模型漂移鑑識

進階2 分鐘閱讀更新於 2026-03-21

區分自然模型漂移與故意竄改的鑑識技術,涵蓋統計偵測方法與證據蒐集。

ai-forensics-ir model-drift tampering-detection model-integrity

概觀

漂移類型

資料分佈漂移(Covariate Shift)

輸入分佈 P(X) 改變,但 P(Y|X) 不變。範例:相機環境光改變使影像分佈改變,但人臉辨識分類的底層關係相同。

概念漂移

P(Y|X) 改變。範例:詐欺偵測中,詐欺模式演進,相同特徵現在對應不同結果。

對抗性漂移

攻擊者有意圖地使分佈偏移。不同於自然漂移,這通常:

突然開始(攻擊啟動時)
針對特定類別或行為
可能有明確目標(例如降低特定使用者群體的偵測率)
通常伴隨異常查詢模式

上游漂移

輸入管線變化:新的資料來源、tokenizer 更新、feature engineering 變更。此通常可追溯到系統變更,但也可能因供應鏈妥協而惡意。

偵測方法

統計距離測試

DistributionDriftDetector:

Kolmogorov-Smirnov 測試:比較兩個樣本的累積分佈
Wasserstein 距離(Earth Mover's Distance):跨分佈的最小「運輸」成本
Population Stability Index (PSI):產業標準;PSI > 0.2 視為顯著漂移
Jensen-Shannon 散度:對稱版本的 KL 散度
Maximum Mean Discrepancy (MMD):對高維特徵適用

模型效能監控

PerformanceMonitor:

追蹤精確度、召回率、F1、AUC 等關鍵指標隨時間變化
設定告警閾值(例如精確度下降 > 5 個百分點)
對有延遲標籤的系統,使用代理指標(信心分數分佈、預測分佈)

輸出分佈偵測

即使無標籤,也可偵測輸出分佈變化:

信心分數直方圖隨時間的變化
預測類別分佈的變化
拒絕率或 OOD 偵測率的變化

嵌入空間漂移

對 LLM 與其他 transformer 模型,監控嵌入分佈:

計算各時間窗的平均嵌入
追蹤嵌入空間的變化方向與大小
異常方向可能指出特定類別的操縱

區分自然與惡意漂移

自然漂移的指標

漸進:漂移發生在天、週或月尺度
可解釋:漂移與已知事件相關(假日、產品發布、外部事件)
平滑:分佈平順變化,無突變
廣泛:影響多個類別,不僅限於少數
相關於外部訊號:與業務指標、新聞事件、季節性相關

惡意漂移的指標

突然:在短時間內(小時、幾天)劇烈變化
針對性:僅影響特定類別、使用者群體或輸入模式
不可解釋:無已知外部原因
伴隨異常查詢模式:請求頻率、來源 IP、user agent 同時異常
與威脅情資相關:有關其他組織遭受類似攻擊的報告

鑑識調查工作流程

階段 1:確認漂移為真

執行多種統計測試以排除隨機波動
確認漂移跨多個時間窗持續
檢查上游資料管線無變更

階段 2:特徵化漂移

分析哪些特徵/類別受影響最大
繪製漂移時間線:何時開始、何時加劇
分析漂移方向:分佈移向哪裡

階段 3:脈絡調查

檢視外部事件:是否有新聞、產品發布、季節事件?
審視系統變更:程式碼部署、組態變更、上游 API 變更
檢查威脅情資:是否有已知攻擊針對類似模型?

階段 4:證據蒐集

快照當前模型狀態與基準狀態
擷取漂移期間的代表性輸入/輸出範例
保留統計測試結果與視覺化
記錄所有上下文資訊(系統變更、外部事件)

階段 5:根本原因分析

若判定為自然漂移:開始模型重訓練計畫
若判定為對抗性漂移:觸發事件回應,擴大調查到輸入管線與使用者行為

預防與緩解

持續監控

對所有生產模型部署漂移監控
分層告警(輕微漂移→通知,嚴重漂移→觸發事件回應)
將漂移指標整合到 MLOps 儀表板

穩健性強化

分佈測試:在部署前對合成漂移測試模型穩健性
對抗訓練:使用對抗樣本訓練以改善穩健性
輸入驗證:拒絕超出分佈的輸入
多模型整合:不同模型可能對同一漂移有不同敏感度,整合判斷更穩健

自動化重訓練

定期以最新資料重訓練
使用新資料驗證以確認重訓練解決漂移
對重訓練模型執行安全評估以防攻擊者操縱新訓練資料

參考資料

Gama, J., et al. (2014). A survey on concept drift adaptation. ACM Computing Surveys.
Rabanser, S., et al. (2019). Failing Loudly: An Empirical Study of Methods for Detecting Dataset Shift. NeurIPS.
Moreno-Torres, J. G., et al. (2012). A unifying view on dataset shift in classification. Pattern Recognition.
MITRE ATLAS. (2024). Model Evasion and Manipulation techniques. https://atlas.mitre.org/

模型漂移鑑識

相關文章

模型漂移鑑識

相關文章