LLM 鑑識:事件應變者入門
當 AI 安全事件發生時,傳統鑑識技術是必要但不充分的。你仍需收集日誌、分析網路流量並建立時間軸。但你還需理解模型行為、重建提示詞注入鏈、分析嵌入空間,以及評估模型權重是否被竄改。本入門涵蓋 LLM 安全事件特有的鑑識技術。
為何 LLM 鑑識不同
傳統數位鑑識運作在一個根本假設上:系統是決定性的。給定相同輸入與狀態,系統產生相同輸出。大型語言模型違反此假設。
與傳統鑑識的關鍵差異
| 面向 | 傳統鑑識 | LLM 鑑識 |
|---|---|---|
| 可重現性 | 高——相同輸入產生相同輸出 | 低——機率輸出變化 |
| 證據類型 | 檔案、日誌、記憶體傾印、網路擷取 | 提示詞、完成、嵌入向量、模型權重 |
| 攻擊指標 | 格式錯誤輸入、利用模式、惡意軟體簽章 | 語意操控、上下文注入、行為異常 |
| 根本原因分析 | 透過程式碼追蹤執行路徑 | 透過提示詞-回應鏈分析模型推理 |
| 監管鏈 | 完善建立的程序 | 浮現中的實務,模型狀態難以保存 |
證據收集
優先證據來源
應對 LLM 安全事件時,依此優先順序收集證據。
模型輸入/輸出日誌 是最關鍵證據。每個傳送至模型的提示詞與每個產生的回應應以時間戳、會話識別碼、使用者歸因與完整對話上下文記錄。沒有這些日誌,LLM 事件的鑑識調查實質上不可能。
工具呼叫日誌 是代理式系統的第二優先。每個工具呼叫應記錄工具名稱、完整引數、傳回值、時間戳與模型呼叫的推理。
系統提示詞與設定 應以事件發生時的狀態擷取。
RAG 檢索日誌 對涉及檢索增強系統的事件至關重要。擷取檢索了哪些文件、其相似度分數與其內容。
模型產物 包含模型權重、微調模型的適配器權重、分詞器設定與任何自訂後處理程式碼。
證據保存最佳實務
在採取任何修復動作前保存證據。遏制動作如模型回滾、設定變更與日誌輪替可摧毀證據。建立所有日誌檔的唯讀副本。匯出模型設定至版本控制儲存。記錄從偵測到證據收集的確切事件序列。
日誌分析技術
對話鏈重建
LLM 攻擊經常跨多個輪次展開。重建完整對話鏈對理解攻擊至關重要。尋找早期訊息建立良性上下文而後期訊息利用該上下文的升級模式。
日誌中的提示詞注入偵測
審查日誌中提示詞注入證據時,尋找:包含針對模型之類指令語言的訊息、嘗試重新定義模型角色的訊息、參照系統提示詞的訊息、包含編碼模式的訊息,以及結構顯著不同於典型使用者訊息的訊息。
工具呼叫模式分析
對代理式系統,分析工具呼叫模式揭露模型是否被操控採取未授權動作。建立正常工具呼叫模式的基準,然後識別事件期間與此基準的偏差。
時間分析
時間分析識別攻擊何時開始、持續多久、是否仍在進行。繪製跨時間的模型行為指標。將事件時間軸與外部事件比較。
模型行為分析
行為比較
當懷疑模型被入侵時,對照已知良好基準比較其當前行為。設計涵蓋模型預期行為的測試套件。對可能被入侵模型與已知良好版本執行測試套件。
嵌入分析
對涉及 RAG 系統的事件,分析嵌入空間可揭露投毒攻擊。使用 t-SNE 或 UMAP 等降維技術視覺化事件查詢周圍的嵌入空間。
輸出分布分析
比較事件期間與正常運作的模型輸出特徵。統計測試如 KL 散度可量化正常與事件期間輸出分布的差異。
攻擊重建
收集並分析證據後,將攻擊重建為回答以下問題的敘事:攻擊者的目標是什麼?使用什麼技術?入口點是什麼?攻擊進程如何?影響是什麼?
在受控環境中嘗試重現攻擊。注意由於模型的機率性質,重現可能不精確。多次執行重現嘗試以評估攻擊是一致還是間歇性的。
鑑識工具
開源工具如 ELK 堆疊適用於 LLM 日誌分析。大多數 LLM 鑑識調查需要針對特定系統架構的自訂工具:對話鏈重建器、注入模式掃描器、行為差異工具與時間軸產生器。
報告鑑識發現
LLM 鑑識經常產生比傳統鑑識信心更低的發現。在報告中明確溝通此不確定性。使用發現的信心等級。區分你確信的、證據強烈暗示的與仍不確定的。
建立鑑識準備
最有效的鑑識調查是在事件發生前就已在收集證據的調查。部署 LLM 系統的組織應從第一天就啟用全面輸入/輸出日誌。確保日誌擷取完整上下文。記錄所有工具呼叫。透過定期基準測試維持模型行為基準。以版本控制與完整性驗證保存模型產物。
鑑識準備的成本與在沒有充分證據下調查事件的成本相比是小的。每個部署生產 LLM 系統的組織應將鑑識準備視為部署要求。