What is 微調模型中的後門偵測?

偵測微調 AI 模型中的後門:激活分析、觸發條件掃描技術、行為探測策略,以及辨識隱藏惡意功能的統計方法。

What is 模型行為 Diffing?

比較事件、更新或修改前後之模型行為：輸出分布分析、安全退化偵測、能力變化量測，以及統計顯著性檢定。

What is 模型竄改偵測?

偵測模型檔案竄改:權重雜湊驗證、架構驗證、適配器檢查、量化驗證,以及供應鏈完整性檢查。

模型行為鑑識 (AI 鑑識與事件回應)

進階3 分鐘閱讀更新於 2026-03-15

模型鑑識概覽：判定模型是否被竄改、行為分析方法論，以及模型工件與可觀察行為之間的關係。

model-forensics tampering behavioral-analysis investigation

模型行為鑑識

當 AI 事件顯示是模型本身——而不僅是其輸入、配置或周邊應用——遭到入侵時，你便進入了模型鑑識的領域。此學科檢查模型的權重、架構或學到的行為是否從已知的良好狀態被改變。這是惡意程式分析的 AI 對應版本：研究工件本身以判定它是否被竄改。

何時調查模型本身

並非每個 AI 事件都需要模型層級的鑑識。多數事件是由應用層問題所造成：系統提示詞有瑕疵、缺少護欄或工具配置易受攻擊。在以下情況下才需要進行模型層級的調查：

指標	為何顯示模型遭入侵
無法以配置解釋的行為異常	若系統提示詞與護欄正確，但模型仍出現不當行為，問題可能出在模型本身
模型更新或更換後行為改變	新的模型版本或微調變體可能引入了漏洞
第三方模型來源疑慮	從公開儲存庫下載的模型可能包含後門
無法解釋的安全性退步	在應用層未做任何變更的情況下，安全行為削弱
被觸發的行為	模型僅在特定、非尋常的觸發下產生特定輸出
供應鏈事件	上游供應商通報影響模型工件的入侵

模型工件作為證據

模型由多種工件組成，每一種都可獨立被竄改。

工件清單

工件	內容	竄改風險
基礎權重	預訓練模型參數（數十億浮點值）	預訓練期間投毒、下載後權重修改
轉接器檔案（LoRA、QLoRA）	修改基礎模型行為的小型參數集	惡意微調、後門植入
分詞器	詞彙與編碼規則	Token 操縱、觸發子植入
配置檔案	架構定義、超參數	架構修改、隱藏層
量化工件	壓縮的權重表示	基於精度的行為變化、量化掩蓋的後門
嵌入層	輸入／輸出 token 表示	針對特定觸發子的嵌入空間操縱

證據鏈

模型工件的證據鏈需要：

來源紀錄 -- 模型從何處取得？哪個具體版本／提交？
完整性驗證 -- 取得時所有模型檔案的雜湊值（SHA-256）
存取日誌 -- 取得後誰對模型檔案有寫入存取權？
修改歷史 -- 任何已套用的微調、量化或格式轉換
部署歷史 -- 每個版本何時被部署到哪些端點？

# 為模型工件產生完整性檢查碼
sha256sum model_weights.safetensors > checksums/model_weights.sha256
sha256sum tokenizer.json > checksums/tokenizer.sha256
sha256sum config.json > checksums/config.json
sha256sum adapter_model.safetensors > checksums/adapter.sha256
 
# 對照已知良好的檢查碼進行驗證
sha256sum -c checksums/*.sha256

行為分析方法論

當懷疑有模型層級竄改時，系統化的行為分析可判定模型行為是否偏離預期基線。

階段 1：建立預期基線

在你能識別異常行為之前，你需要一個參考點。

基線來源	提供內容	限制
先前模型版本	直接行為比較	可能未被保留
模型卡／文件	預期能力與限制	可能不完整或過時
安全評估基準	量化的安全行為分數	涵蓋常見情況，可能漏掉針對性後門
原始供應商的模型	未修改的參考行為	可能與你的微調版本不同
生產行為日誌	事件發生前的真實世界行為	嘈雜；受應用層影響

階段 2：系統化探測

安全行為探測
針對全面的安全相關提示詞集測試模型。將拒絕率與回應模式與基線進行比較。任何類別的拒絕率顯著下降，都值得進行更深入的調查。
要測試的類別：有害內容生成、PII 揭露、越獄易感性、指示遵循、人格抵抗與系統提示詞保護。
觸發子掃描
若懷疑有後門，搜尋會產生異常輸出的輸入。這包括以已知後門觸發模式測試模型，並監控偏離預期行為的輸出。技術詳見後門偵測。
輸出分佈分析
在懷疑模型與基線之間比較模型輸出的統計特性（token 分佈、詞彙使用、輸出長度分佈）。
方法詳見行為差異分析。
權重與檔案完整性驗證
對照已知良好的檢查碼驗證模型檔案的完整性。檢查轉接器檔案、分詞器修改與配置變更。程序詳見竄改偵測。

階段 3：差異分析

跨多個維度比較疑似模型的行為與基線：

維度	測量	顯著性閾值
安全拒絕率	拒絕有害提示詞的百分比	較基線下降 >5%
輸出毒性分數	平均毒性分類器分數	較基線增加 >0.1
指示遵循	系統提示詞符合率	較基線下降 >10%
能力基準	標準基準上的任務表現	任一方向變化 >5%
觸發子回應	對疑似觸發子輸入的行為	任何異常回應

模型入侵的類型

類型	改變了什麼	如何偵測	難度
後門	模型對特定觸發子以攻擊者選定的輸出回應	觸發子掃描、激活分析	高
安全退化	整體安全行為削弱	安全基準比較	中
能力操縱	特定能力被增強或退化	任務特定基準	中
偏見注入	模型行為在特定脈絡中系統性偏見化	公平性基準、輸出分析	高
資料記憶	模型記憶並能重現特定敏感資料	萃取探測、成員資格推論	中

章節概覽

本節包含三個專門的子章節，提供深入的模型鑑識調查：

子章節	重點	何時使用
後門偵測	尋找隱藏觸發子與惡意功能	第三方模型、供應鏈疑慮、無法解釋的被觸發行為
行為差異分析	比較事件或更新前後的行為	安全退步、預期外的行為變化、更新後驗證
竄改偵測	驗證檔案完整性並偵測修改	檔案完整性疑慮、未知修改、供應鏈驗證

參考資料

"Backdoor Attacks on Language Models: A Survey" - arXiv (2025) - 後門技術與偵測方法的全面調查
"TrojAI: AI Model Inspection Framework" - IARPA (2024) - 政府贊助的模型檢查方法論
"NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - 模型層級攻擊的分類
"Model Cards for Model Reporting" - Mitchell et al. (2019) - 用於建立模型基線的文件框架

Knowledge Check

一個微調後的模型在程式碼基準上比其基礎模型得分更高，但安全拒絕率下降 15%。應該進一步調查嗎？

模型行為鑑識 (AI 鑑識與事件回應)

進階3 分鐘閱讀更新於 2026-03-15

模型鑑識概覽：判定模型是否被竄改、行為分析方法論，以及模型工件與可觀察行為之間的關係。

model-forensics tampering behavioral-analysis investigation

模型行為鑑識

何時調查模型本身

指標	為何顯示模型遭入侵
無法以配置解釋的行為異常	若系統提示詞與護欄正確，但模型仍出現不當行為，問題可能出在模型本身
模型更新或更換後行為改變	新的模型版本或微調變體可能引入了漏洞
第三方模型來源疑慮	從公開儲存庫下載的模型可能包含後門
無法解釋的安全性退步	在應用層未做任何變更的情況下，安全行為削弱
被觸發的行為	模型僅在特定、非尋常的觸發下產生特定輸出
供應鏈事件	上游供應商通報影響模型工件的入侵

模型工件作為證據

模型由多種工件組成，每一種都可獨立被竄改。

工件清單

工件	內容	竄改風險
基礎權重	預訓練模型參數（數十億浮點值）	預訓練期間投毒、下載後權重修改
轉接器檔案（LoRA、QLoRA）	修改基礎模型行為的小型參數集	惡意微調、後門植入
分詞器	詞彙與編碼規則	Token 操縱、觸發子植入
配置檔案	架構定義、超參數	架構修改、隱藏層
量化工件	壓縮的權重表示	基於精度的行為變化、量化掩蓋的後門
嵌入層	輸入／輸出 token 表示	針對特定觸發子的嵌入空間操縱

證據鏈

模型工件的證據鏈需要：

來源紀錄 -- 模型從何處取得？哪個具體版本／提交？
完整性驗證 -- 取得時所有模型檔案的雜湊值（SHA-256）
存取日誌 -- 取得後誰對模型檔案有寫入存取權？
修改歷史 -- 任何已套用的微調、量化或格式轉換
部署歷史 -- 每個版本何時被部署到哪些端點？

# 為模型工件產生完整性檢查碼
sha256sum model_weights.safetensors > checksums/model_weights.sha256
sha256sum tokenizer.json > checksums/tokenizer.sha256
sha256sum config.json > checksums/config.json
sha256sum adapter_model.safetensors > checksums/adapter.sha256
 
# 對照已知良好的檢查碼進行驗證
sha256sum -c checksums/*.sha256

行為分析方法論

當懷疑有模型層級竄改時，系統化的行為分析可判定模型行為是否偏離預期基線。

階段 1：建立預期基線

在你能識別異常行為之前，你需要一個參考點。

基線來源	提供內容	限制
先前模型版本	直接行為比較	可能未被保留
模型卡／文件	預期能力與限制	可能不完整或過時
安全評估基準	量化的安全行為分數	涵蓋常見情況，可能漏掉針對性後門
原始供應商的模型	未修改的參考行為	可能與你的微調版本不同
生產行為日誌	事件發生前的真實世界行為	嘈雜；受應用層影響

階段 2：系統化探測

安全行為探測
針對全面的安全相關提示詞集測試模型。將拒絕率與回應模式與基線進行比較。任何類別的拒絕率顯著下降，都值得進行更深入的調查。
要測試的類別：有害內容生成、PII 揭露、越獄易感性、指示遵循、人格抵抗與系統提示詞保護。
觸發子掃描
若懷疑有後門，搜尋會產生異常輸出的輸入。這包括以已知後門觸發模式測試模型，並監控偏離預期行為的輸出。技術詳見後門偵測。
輸出分佈分析
在懷疑模型與基線之間比較模型輸出的統計特性（token 分佈、詞彙使用、輸出長度分佈）。
方法詳見行為差異分析。
權重與檔案完整性驗證
對照已知良好的檢查碼驗證模型檔案的完整性。檢查轉接器檔案、分詞器修改與配置變更。程序詳見竄改偵測。

階段 3：差異分析

跨多個維度比較疑似模型的行為與基線：

維度	測量	顯著性閾值
安全拒絕率	拒絕有害提示詞的百分比	較基線下降 >5%
輸出毒性分數	平均毒性分類器分數	較基線增加 >0.1
指示遵循	系統提示詞符合率	較基線下降 >10%
能力基準	標準基準上的任務表現	任一方向變化 >5%
觸發子回應	對疑似觸發子輸入的行為	任何異常回應

模型入侵的類型

類型	改變了什麼	如何偵測	難度
後門	模型對特定觸發子以攻擊者選定的輸出回應	觸發子掃描、激活分析	高
安全退化	整體安全行為削弱	安全基準比較	中
能力操縱	特定能力被增強或退化	任務特定基準	中
偏見注入	模型行為在特定脈絡中系統性偏見化	公平性基準、輸出分析	高
資料記憶	模型記憶並能重現特定敏感資料	萃取探測、成員資格推論	中

章節概覽

本節包含三個專門的子章節，提供深入的模型鑑識調查：

子章節	重點	何時使用
後門偵測	尋找隱藏觸發子與惡意功能	第三方模型、供應鏈疑慮、無法解釋的被觸發行為
行為差異分析	比較事件或更新前後的行為	安全退步、預期外的行為變化、更新後驗證
竄改偵測	驗證檔案完整性並偵測修改	檔案完整性疑慮、未知修改、供應鏈驗證

參考資料

"Backdoor Attacks on Language Models: A Survey" - arXiv (2025) - 後門技術與偵測方法的全面調查
"TrojAI: AI Model Inspection Framework" - IARPA (2024) - 政府贊助的模型檢查方法論
"NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - 模型層級攻擊的分類
"Model Cards for Model Reporting" - Mitchell et al. (2019) - 用於建立模型基線的文件框架

Knowledge Check

一個微調後的模型在程式碼基準上比其基礎模型得分更高，但安全拒絕率下降 15%。應該進一步調查嗎？

模型行為鑑識 (AI 鑑識與事件回應)

模型行為鑑識

何時調查模型本身

模型工件作為證據

工件清單

證據鏈

行為分析方法論

階段 1：建立預期基線

階段 2：系統化探測

安全行為探測

觸發子掃描

輸出分佈分析

權重與檔案完整性驗證

階段 3：差異分析

模型入侵的類型

章節概覽

相關主題

參考資料

學習路徑

模型行為鑑識 (AI 鑑識與事件回應)

模型行為鑑識

何時調查模型本身

模型工件作為證據

工件清單

證據鏈

行為分析方法論

階段 1：建立預期基線

階段 2：系統化探測

安全行為探測

觸發子掃描

輸出分佈分析

權重與檔案完整性驗證

階段 3：差異分析

模型入侵的類型

章節概覽

相關主題

參考資料

學習路徑

模型行為鑑識 (AI 鑑識與事件回應)

安全行為探測

觸發子掃描

輸出分佈分析

權重與檔案完整性驗證

學習路徑

相關文章

模型行為鑑識 (AI 鑑識與事件回應)

安全行為探測

觸發子掃描

輸出分佈分析

權重與檔案完整性驗證

學習路徑

相關文章