模型行為鑑識 (AI 鑑識與事件回應)
模型鑑識概覽:判定模型是否被竄改、行為分析方法論,以及模型工件與可觀察行為之間的關係。
模型行為鑑識
當 AI 事件顯示是模型本身——而不僅是其輸入、配置或周邊應用——遭到入侵時,你便進入了模型鑑識的領域。此學科檢查模型的權重、架構或學到的行為是否從已知的良好狀態被改變。這是惡意程式分析的 AI 對應版本:研究工件本身以判定它是否被竄改。
何時調查模型本身
並非每個 AI 事件都需要模型層級的鑑識。多數事件是由應用層問題所造成:系統提示詞有瑕疵、缺少護欄或工具配置易受攻擊。在以下情況下才需要進行模型層級的調查:
| 指標 | 為何顯示模型遭入侵 |
|---|---|
| 無法以配置解釋的行為異常 | 若系統提示詞與護欄正確,但模型仍出現不當行為,問題可能出在模型本身 |
| 模型更新或更換後行為改變 | 新的模型版本或微調變體可能引入了漏洞 |
| 第三方模型來源疑慮 | 從公開儲存庫下載的模型可能包含後門 |
| 無法解釋的安全性退步 | 在應用層未做任何變更的情況下,安全行為削弱 |
| 被觸發的行為 | 模型僅在特定、非尋常的觸發下產生特定輸出 |
| 供應鏈事件 | 上游供應商通報影響模型工件的入侵 |
模型工件作為證據
模型由多種工件組成,每一種都可獨立被竄改。
工件清單
| 工件 | 內容 | 竄改風險 |
|---|---|---|
| 基礎權重 | 預訓練模型參數(數十億浮點值) | 預訓練期間投毒、下載後權重修改 |
| 轉接器檔案(LoRA、QLoRA) | 修改基礎模型行為的小型參數集 | 惡意微調、後門植入 |
| 分詞器 | 詞彙與編碼規則 | Token 操縱、觸發子植入 |
| 配置檔案 | 架構定義、超參數 | 架構修改、隱藏層 |
| 量化工件 | 壓縮的權重表示 | 基於精度的行為變化、量化掩蓋的後門 |
| 嵌入層 | 輸入/輸出 token 表示 | 針對特定觸發子的嵌入空間操縱 |
證據鏈
模型工件的 證據鏈 需要:
- 來源紀錄 -- 模型從何處取得?哪個具體版本/提交?
- 完整性驗證 -- 取得時所有模型檔案的雜湊值(SHA-256)
- 存取日誌 -- 取得後誰對模型檔案有寫入存取權?
- 修改歷史 -- 任何已套用的微調、量化或格式轉換
- 部署歷史 -- 每個版本何時被部署到哪些端點?
# 為模型工件產生完整性檢查碼
sha256sum model_weights.safetensors > checksums/model_weights.sha256
sha256sum tokenizer.json > checksums/tokenizer.sha256
sha256sum config.json > checksums/config.json
sha256sum adapter_model.safetensors > checksums/adapter.sha256
# 對照已知良好的檢查碼進行驗證
sha256sum -c checksums/*.sha256行為分析方法論
當懷疑有模型層級竄改時,系統化的行為分析可判定模型行為是否偏離預期基線。
階段 1:建立預期基線
在你能識別異常行為之前,你需要一個參考點。
| 基線來源 | 提供內容 | 限制 |
|---|---|---|
| 先前模型版本 | 直接行為比較 | 可能未被保留 |
| 模型卡/文件 | 預期能力與限制 | 可能不完整或過時 |
| 安全評估基準 | 量化的安全行為分數 | 涵蓋常見情況,可能漏掉針對性後門 |
| 原始供應商的模型 | 未修改的參考行為 | 可能與你的微調版本不同 |
| 生產行為日誌 | 事件發生前的真實世界行為 | 嘈雜;受應用層影響 |
階段 2:系統化探測
安全行為探測
針對全面的安全相關提示詞集測試模型。將拒絕率與回應模式與基線進行比較。任何類別的拒絕率顯著下降,都值得進行更深入的調查。
要測試的類別:有害內容生成、PII 揭露、越獄易感性、指示遵循、人格抵抗與系統提示詞保護。
觸發子掃描
若懷疑有後門,搜尋會產生異常輸出的輸入。這包括以已知後門觸發模式測試模型,並監控偏離預期行為的輸出。技術詳見 後門偵測。
輸出分佈分析
在懷疑模型與基線之間比較模型輸出的統計特性(token 分佈、詞彙使用、輸出長度分佈)。
方法詳見 行為差異分析。
權重與檔案完整性驗證
對照已知良好的檢查碼驗證模型檔案的完整性。檢查轉接器檔案、分詞器修改與配置變更。程序詳見 竄改偵測。
階段 3:差異分析
跨多個維度比較疑似模型的行為與基線:
| 維度 | 測量 | 顯著性閾值 |
|---|---|---|
| 安全拒絕率 | 拒絕有害提示詞的百分比 | 較基線下降 >5% |
| 輸出毒性分數 | 平均毒性分類器分數 | 較基線增加 >0.1 |
| 指示遵循 | 系統提示詞符合率 | 較基線下降 >10% |
| 能力基準 | 標準基準上的任務表現 | 任一方向變化 >5% |
| 觸發子回應 | 對疑似觸發子輸入的行為 | 任何異常回應 |
模型入侵的類型
| 類型 | 改變了什麼 | 如何偵測 | 難度 |
|---|---|---|---|
| 後門 | 模型對特定觸發子以攻擊者選定的輸出回應 | 觸發子掃描、激活分析 | 高 |
| 安全退化 | 整體安全行為削弱 | 安全基準比較 | 中 |
| 能力操縱 | 特定能力被增強或退化 | 任務特定基準 | 中 |
| 偏見注入 | 模型行為在特定脈絡中系統性偏見化 | 公平性基準、輸出分析 | 高 |
| 資料記憶 | 模型記憶並能重現特定敏感資料 | 萃取探測、成員資格推論 | 中 |
章節概覽
本節包含三個專門的子章節,提供深入的模型鑑識調查:
| 子章節 | 重點 | 何時使用 |
|---|---|---|
| 後門偵測 | 尋找隱藏觸發子與惡意功能 | 第三方模型、供應鏈疑慮、無法解釋的被觸發行為 |
| 行為差異分析 | 比較事件或更新前後的行為 | 安全退步、預期外的行為變化、更新後驗證 |
| 竄改偵測 | 驗證檔案完整性並偵測修改 | 檔案完整性疑慮、未知修改、供應鏈驗證 |
相關主題
- 基礎設施與供應鏈 -- 導致模型入侵的供應鏈攻擊向量
- 訓練管線攻擊 -- 了解模型如何在訓練期間被投毒
- RAG、資料與訓練攻擊 -- 與模型鑑識相關的資料投毒技術
- 證據保全 -- 為調查保全模型工件
參考資料
- "Backdoor Attacks on Language Models: A Survey" - arXiv (2025) - 後門技術與偵測方法的全面調查
- "TrojAI: AI Model Inspection Framework" - IARPA (2024) - 政府贊助的模型檢查方法論
- "NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - 模型層級攻擊的分類
- "Model Cards for Model Reporting" - Mitchell et al. (2019) - 用於建立模型基線的文件框架
一個微調後的模型在程式碼基準上比其基礎模型得分更高,但安全拒絕率下降 15%。應該進一步調查嗎?