模型後門偵測鑑識
進階2 分鐘閱讀更新於 2026-03-20
偵測、分析與歸因透過訓練階段或訓練後攻擊植入機器學習模型之後門的鑑識技術。
概觀
模型後門是攻擊者在模型中嵌入的隱藏行為:模型在標準輸入下運作正常,但遇到特定「觸發」(trigger)時展現攻擊者指定的行為。觸發可能是影像中的特定圖形模式、文字中的特定字串或 Unicode 字元、或特定符元序列。後門的隱匿性使其特別危險:標準評估可能完全錯過它們,因為觸發在一般測試集中不存在。
後門攻擊的常見情境:訓練階段攻擊(攻擊者控制訓練資料或管線,如 BadNets)、訓練後攻擊(對已訓練模型注入後門,如權重操縱)、供應鏈攻擊(攻擊者提供被後門化的預訓練模型或資料集)。
本文涵蓋系統化鑑識方法:從對模型的靜態分析到觸發反演,以及將發現整合到供應鏈與事件回應流程。
後門類型
視覺模型後門
- Patch 觸發:影像中特定位置的像素圖案(如 BadNets)
- 水印觸發:不可見疊加
- 物理物件觸發:特定顏色貼紙、眼鏡等
- 語意觸發:特定類別的物件(例如帽子)
語言模型後門
- 精確字串觸發:罕見片語或非詞
- Unicode 觸發:零寬度字元、替代字元
- 語法觸發:特殊句子結構
- 概念觸發:特定主題或情境組合
代理後門
對代理式 LLM 系統:工具回傳中的觸發可使代理執行意外動作(資料外洩、遠端指令)。
偵測方法
啟發式掃描
HeuristicBackdoorScanner:
- 模型權重分析:異常權重分佈、層間神經元強度分佈異常
- 詞彙檢查:尋找模型 tokenizer 中異常或新增的符元
- 訓練成品檢查:若存在訓練日誌、資料集指紋,搜尋已知後門特徵
激活分析
對已知輸入集合,記錄每層激活;尋找偏離分佈的模式:
ActivationClusteringDetector:
- 對乾淨測試集執行模型、擷取倒數第二層激活
- 對每個類別應用聚類(K-means)
- 純淨類別的激活應形成單一聚類;後門樣本(若摻入測試集)會形成第二個聚類
- 此為 Chen 等(2018)「Activation Clustering」方法
觸發反演
最強大但計算昂貴的方法。Neural Cleanse(Wang 等 2019)與其變體:
TriggerInversionSearcher:
- 對每個輸出類別,優化搜尋最小擾動使其他類別的輸入被分類為該類別
- 在後門類別,最小觸發擾動通常遠小於其他類別
- 若最小觸發大小與其他類別統計顯著不同,判定存在後門
- 回傳候選觸發供進一步驗證
頻譜簽章
對神經網路權重的頻譜分析可能揭示後門特徵:
- 後門神經元通常具特徵性激活模式
- 頻譜特徵值分析可識別受影響層
行為探測
對文字模型:
- 系統性地嘗試常見觸發類別(Unicode 異常、罕見片語、特殊格式)
- 比較模型對含可能觸發 vs 不含的輸入的回應分佈
- 偵測「跳躍」行為:某特定字元進入時,模型行為急遽改變
與其他現象的區分
後門偵測的一個關鍵挑戰是與非惡意現象區分:
- 自然特徵錯亂:某類別的誤分類可能僅是訓練資料不平衡,而非後門
- 對抗性樣本:擾動敏感性 vs 故意植入觸發
- 合法微調:組織可能合法微調模型以對特定輸入產生特定行為;需檢視資料來源
鑑識原則:後門偵測工具產出候選清單;接著需要脈絡調查(誰執行了訓練、何時、為何)以確認是否惡意。
事件回應工作流程
階段 1:觸發偵測告警
- 可能透過:下游系統異常、威脅情資(他人公布後門)、紅隊測試發現
- 立即:快照模型、隔離部署
階段 2:鑑識分析
- 執行啟發式掃描以識別可疑跡象
- 對關鍵類別執行觸發反演
- 若有足夠已知乾淨資料,執行激活聚類
- 對行為探測,手動嘗試已知後門模式
階段 3:範圍與歸因
- 判定是否僅此模型被後門化,還是整個模型家族
- 查詢訓練來源:資料集、基礎模型、微調程序
- 審查供應鏈:模型若來自第三方,上游提供者是否被妥協?
階段 4:修補
- 對確認的後門模型:停用部署、從所有下游系統撤回
- 若可能,對淨資料重新訓練
- 對供應鏈妥協,通知上游提供者並遵循 AI 供應鏈事件回應
- 實施後門偵測作為生產部署前的必要檢查
挑戰
- 計算成本:觸發反演對大型模型極昂貴(小時至天)
- 適應性攻擊:對已知偵測方法優化的後門可規避偵測
- 稀疏觸發:極稀疏觸發(僅在特定多元化條件下觸發)幾乎無法偵測
- 乾淨標籤後門:觸發與非觸發樣本皆正確標籤,最難偵測
參考資料
- Gu, T., Dolan-Gavitt, B., & Garg, S. (2017). BadNets: Identifying Vulnerabilities in the Machine Learning Model Supply Chain. arXiv:1708.06733.
- Chen, B., et al. (2018). Detecting Backdoor Attacks on Deep Neural Networks by Activation Clustering. arXiv:1811.03728.
- Wang, B., et al. (2019). Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks. IEEE S&P.
- Hubinger, E., et al. (2024). Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training. arXiv:2401.05566.
- MITRE ATLAS. AML.T0018 — Backdoor ML Model. https://atlas.mitre.org/