模型鑑識
調查 AI 模型本身是否被入侵的鑑識技術——涵蓋後門偵測、行為比對、權重竄改分析與模型完整性驗證。
模型鑑識在傳統事件應變不考量的領域運作:模型本身是否被入侵?不同於系統日誌或網路流量分析,模型鑑識檢視模型權重、行為模式與輸出分布以偵測竄改或投毒。
後門偵測
系統性探測模型以偵測對特定觸發物的異常回應。使用多樣觸發模式(關鍵字、語意概念、格式化)測試。
行為比對
對照已知良好版本比較模型在全面測試套件上的行為。偵測安全對齊降級、新增能力或行為變化。
權重分析
統計方法偵測模型權重中的異常——後門通常在特定層或注意力頭中顯示統計偏差。