LLM 鑑識：事件應變者入門

2026-02-20redteams.ai1 分鐘閱讀

forensics incident-response investigation evidence log-analysis

當 AI 安全事件發生時，傳統鑑識技術是必要但不充分的。你仍需收集日誌、分析網路流量並建立時間軸。但你還需理解模型行為、重建提示詞注入鏈、分析嵌入空間，以及評估模型權重是否被竄改。本入門涵蓋 LLM 安全事件特有的鑑識技術。

為何 LLM 鑑識不同

傳統數位鑑識運作在一個根本假設上：系統是決定性的。給定相同輸入與狀態，系統產生相同輸出。大型語言模型違反此假設。

與傳統鑑識的關鍵差異

面向	傳統鑑識	LLM 鑑識
可重現性	高——相同輸入產生相同輸出	低——機率輸出變化
證據類型	檔案、日誌、記憶體傾印、網路擷取	提示詞、完成、嵌入向量、模型權重
攻擊指標	格式錯誤輸入、利用模式、惡意軟體簽章	語意操控、上下文注入、行為異常
根本原因分析	透過程式碼追蹤執行路徑	透過提示詞-回應鏈分析模型推理
監管鏈	完善建立的程序	浮現中的實務，模型狀態難以保存

證據收集

優先證據來源

應對 LLM 安全事件時，依此優先順序收集證據。

模型輸入/輸出日誌 是最關鍵證據。每個傳送至模型的提示詞與每個產生的回應應以時間戳、會話識別碼、使用者歸因與完整對話上下文記錄。沒有這些日誌，LLM 事件的鑑識調查實質上不可能。

工具呼叫日誌 是代理式系統的第二優先。每個工具呼叫應記錄工具名稱、完整引數、傳回值、時間戳與模型呼叫的推理。

系統提示詞與設定 應以事件發生時的狀態擷取。

RAG 檢索日誌 對涉及檢索增強系統的事件至關重要。擷取檢索了哪些文件、其相似度分數與其內容。

模型產物 包含模型權重、微調模型的適配器權重、分詞器設定與任何自訂後處理程式碼。

證據保存最佳實務

在採取任何修復動作前保存證據。遏制動作如模型回滾、設定變更與日誌輪替可摧毀證據。建立所有日誌檔的唯讀副本。匯出模型設定至版本控制儲存。記錄從偵測到證據收集的確切事件序列。

日誌分析技術

對話鏈重建

LLM 攻擊經常跨多個輪次展開。重建完整對話鏈對理解攻擊至關重要。尋找早期訊息建立良性上下文而後期訊息利用該上下文的升級模式。

日誌中的提示詞注入偵測

審查日誌中提示詞注入證據時，尋找：包含針對模型之類指令語言的訊息、嘗試重新定義模型角色的訊息、參照系統提示詞的訊息、包含編碼模式的訊息，以及結構顯著不同於典型使用者訊息的訊息。

工具呼叫模式分析

對代理式系統，分析工具呼叫模式揭露模型是否被操控採取未授權動作。建立正常工具呼叫模式的基準，然後識別事件期間與此基準的偏差。

時間分析

時間分析識別攻擊何時開始、持續多久、是否仍在進行。繪製跨時間的模型行為指標。將事件時間軸與外部事件比較。

模型行為分析

行為比較

當懷疑模型被入侵時，對照已知良好基準比較其當前行為。設計涵蓋模型預期行為的測試套件。對可能被入侵模型與已知良好版本執行測試套件。

嵌入分析

對涉及 RAG 系統的事件，分析嵌入空間可揭露投毒攻擊。使用 t-SNE 或 UMAP 等降維技術視覺化事件查詢周圍的嵌入空間。

輸出分布分析

比較事件期間與正常運作的模型輸出特徵。統計測試如 KL 散度可量化正常與事件期間輸出分布的差異。

攻擊重建

收集並分析證據後，將攻擊重建為回答以下問題的敘事：攻擊者的目標是什麼？使用什麼技術？入口點是什麼？攻擊進程如何？影響是什麼？

在受控環境中嘗試重現攻擊。注意由於模型的機率性質，重現可能不精確。多次執行重現嘗試以評估攻擊是一致還是間歇性的。

鑑識工具

開源工具如 ELK 堆疊適用於 LLM 日誌分析。大多數 LLM 鑑識調查需要針對特定系統架構的自訂工具：對話鏈重建器、注入模式掃描器、行為差異工具與時間軸產生器。

報告鑑識發現

LLM 鑑識經常產生比傳統鑑識信心更低的發現。在報告中明確溝通此不確定性。使用發現的信心等級。區分你確信的、證據強烈暗示的與仍不確定的。

建立鑑識準備

最有效的鑑識調查是在事件發生前就已在收集證據的調查。部署 LLM 系統的組織應從第一天就啟用全面輸入/輸出日誌。確保日誌擷取完整上下文。記錄所有工具呼叫。透過定期基準測試維持模型行為基準。以版本控制與完整性驗證保存模型產物。

鑑識準備的成本與在沒有充分證據下調查事件的成本相比是小的。每個部署生產 LLM 系統的組織應將鑑識準備視為部署要求。