AI 鑑識與事件應變
AI 系統鑑識調查與事件應變的概覽:為何傳統 IR 不足、AI 事件生命週期,以及非決定性系統的獨特挑戰。
AI 鑑識與事件應變
當 AI 系統被入侵時,你用於傳統軟體事件的劇本會讓你有關鍵盲點。模型行為不是「運作」或「損壞」的二元——它沿著使偵測、範圍界定與修復與經典事件應變根本不同的光譜變化。
為何傳統 IR 不足
傳統事件應變假設決定性系統:被入侵的伺服器每次都執行相同的利用程式碼、被竊憑證在每次使用都授予相同存取權,而惡意軟體二進位檔案無論你何時分析都產生相同雜湊。AI 系統違反所有這些假設。
決定性 vs. 非決定性
| 特徵 | 傳統系統 | AI 系統 |
|---|---|---|
| 可重現性 | 利用可靠重現 | 由於 temperature 與取樣,攻擊可能 30-70% 時間成功 |
| 證據 | 日誌檔案、記憶體傾印、磁碟映像 | 提示詞日誌、推論軌跡、模型權重、嵌入向量 |
| 爆炸半徑 | 由網路拓撲與存取控制定義 | 由模型「知道」什麼以及它能呼叫什麼工具定義 |
| 遏制 | 隔離主機、撤銷憑證 | 隔離模型,但先前輸出可能已被快取或被採取行動 |
| 根本原因 | 程式碼或設定中的漏洞 | 可能是訓練資料、系統提示詞、模型權重或使用者輸入 |
| 驗證 | 修補並重測 | 非決定性驗證需要統計信心 |
傳統框架錯過什麼
NIST 網路安全框架(SP 800-61)與 SANS 事件應變流程皆假設你可以:
-
識別明確的入侵指標(IoC)。 在 AI 系統中,「入侵」可能是微妙的行為轉變——模型開始洩漏稍多資訊或對有害請求稍更配合。沒有相當於惡意軟體雜湊可供搜尋。
-
透過隔離受影響系統遏制事件。 在一次對話中被越獄的 AI 模型在大多數架構中不影響其他對話。但如果攻擊利用系統提示詞或微調中的缺陷,每次對話都潛在受影響。
-
透過移除惡意產物根除威脅。 如果「惡意產物」是訓練期間習得的行為模式,你不能簡單地刪除檔案。你可能需要重新訓練、以修正資料微調,或加入執行時護欄。
-
透過從已知良好備份復原而復原。 你可回滾模型權重,但入侵期間發生的互動可能已造成損害——資料被揭露、動作被採取,或下游系統被影響。
AI 事件生命週期
AI 事件生命週期改造傳統 IR 階段,但在每個階段加入 AI 特定活動。
階段 1:偵測
AI 系統中的偵測依賴與傳統系統不同的訊號類型。
| 訊號類型 | 描述 | 範例 |
|---|---|---|
| 安全分類器警報 | 執行時分類器標記有害輸出 | 輸出被 Llama Guard 分類為「有害」 |
| 異常推論模式 | 不尋常的符元分布、延遲尖峰或輸出長度 | 平均回應長度從 200 跳至 2,000 符元 |
| 使用者回報 | 最終使用者回報非預期模型行為 | 「聊天機器人告訴我內部價格資訊」 |
| 工具呼叫異常 | 代理進行非預期工具呼叫 | 模型呼叫 exec() 或存取其沙盒外的檔案 |
| 提示詞模式偵測 | 已知越獄模式出現在輸入日誌 | 輸入包含「ignore previous instructions」變體 |
| 嵌入向量漂移 | 查詢嵌入向量聚集在非預期區域 | 對敏感文件嵌入附近的查詢突然激增 |
階段 2:分級與分類
一旦被偵測,AI 事件必須使用 AI 特定分類法分類。傳統類別如「惡意軟體」、「未授權存取」或「拒絕服務」未捕捉 AI 入侵的細微差別。
AI 事件分類法 類別包含越獄、提示詞注入、透過模型輸出的資料外洩、模型操控、模型產物供應鏈入侵,以及對模型輸入的對抗性攻擊。
請參閱 事件分類 了解完整分類法,以及 嚴重性框架 了解評分方法論。
階段 3:遏制
AI 遏制策略取決於事件類型與系統架構。
| 策略 | 何時使用 | 權衡 |
|---|---|---|
| 停用模型端點 | 關鍵嚴重性、主動資料外洩 | 完全服務中斷 |
| 切換至備援模型 | 需要生產連續性 | 備援可能有不同能力或自己的漏洞 |
| 加入執行時護欄 | 識別針對性攻擊模式 | 可能封鎖合法查詢;攻擊者可適應 |
| 限制工具存取 | 基於代理的系統、偵測到工具濫用 | 降低功能但停止橫向移動 |
| 速率限制或斷路器 | 自動化攻擊進行中** | 拖慢但不停止決心的攻擊者 |
階段 4:調查
AI 鑑識調查檢驗傳統 IR 中不存在的證據類型。
- 提示詞與完成日誌 — 模型的完整輸入/輸出歷史,包含系統提示詞、使用者訊息與助理回應
- 推論遙測 — 每個請求的符元層級機率、延遲測量與取樣參數
- 模型產物 — 權重、適配器、分詞器檔案與定義模型行為的設定
- 工具呼叫軌跡 — 模型呼叫了什麼外部工具或 API 的紀錄、以什麼參數,以及傳回什麼結果
- 嵌入與檢索日誌 — 為 RAG 查詢檢索了什麼文件、其相似度分數,以及注入上下文的區塊
階段 5:修復
AI 系統中的修復經常需要超越修補程式碼的變更。
修補即時漏洞
如果攻擊利用系統提示詞缺陷,更新系統提示詞。如果它利用缺失的護欄,部署護欄。這是最快但最不持久的修復。
處理根本原因
判斷漏洞是在模型本身(訓練資料、微調)、應用程式層(系統提示詞、工具設定),還是基礎設施(API 暴露、認證)。在正確的層應用適當修復。
以統計方式驗證修復
因為 AI 系統是非決定性的,你不能以單一測試驗證修復。執行原始攻擊 payload 至少 50 次,並確認成功率的統計顯著降低。記錄信心區間。
監控迴歸
部署特別觀察該攻擊模式與相關變體的監控。基於事件前建立的基準行為設定警報閾值。
階段 6:事後檢討
AI 事件事後檢討應包含所有傳統事後檢討元素,加上:
- 模型行為時間軸 — 模型的行為如何在事件之前、期間與之後改變
- 攻擊可轉移性評估 — 相同攻擊是否對你環境中其他模型有效
- 訓練資料審查 — 漏洞是否源自訓練資料
- 護欄落差分析 — 什麼安全控制本應捕捉事件以及為何沒有
AI 鑑識中的獨特挑戰
非決定性證據
相同提示詞可在連續執行中產生不同輸出。這意味著:
- 你可能無法重現確切的事件,即使使用相同輸入
- 「負面」測試結果不證明漏洞已修復
- 證據必須包含觀察到的確切輸出,而非重建
- 統計分析取代二元通過/失敗驗證
提示詞日誌 vs. 系統日誌
傳統系統日誌(syslog、應用程式日誌、存取日誌)告訴你基礎設施層級發生了什麼。但 AI 事件在提示詞與完成的內容本身中發生。「利用」是自然語言,不是 CVE 識別的漏洞。
這意味著你的日誌基礎設施必須捕捉每次互動的完整內容,不只是 metadata。說「使用者在 14:32:07 傳送訊息,847 符元,回應 1,203 符元」的日誌條目對是否發生越獄毫無告知。你需要實際文字。
模型行為作為證據
在某些 AI 事件中,證據不在日誌或產物中——而是在模型的行為本身。微調模型可能已被投毒以在特定脈絡中表現不同。發現這一點的唯一方法是透過系統性行為探測,涵蓋於 模型鑑識。
時間挑戰
AI 模型經常被更新、重新訓練或替換。如果你在事件發生數天後才發現:
- 當時執行的模型版本可能不再可用
- 系統提示詞可能自事件以來已被更新
- RAG 文件索引可能已變更
- 工具設定可能已被修改
這使主動證據保存至關重要。請參閱 證據保存 了解程序與最佳實務。
章節概覽
本節組織為五個子章節,每個處理 AI 鑑識與事件應變的關鍵面向。
| 子章節 | 焦點 | 回答的關鍵問題 |
|---|---|---|
| 事件分類 | 分類法、嚴重性、分級、升級 | 這是什麼類型的事件?多嚴重?誰需要知道? |
| 日誌分析 | 推論日誌、提示詞日誌、工具呼叫軌跡 | 發生了什麼?日誌中存在什麼證據? |
| 模型鑑識 | 後門偵測、行為比對、竄改 | 模型本身是否被入侵? |
| IR 劇本 | 逐步應變程序 | 我現在對這個特定事件類型該做什麼? |
| 證據保存 | 監管鏈、模型快照、對話資料 | 我如何為調查與法律程序保存證據? |
相關主題
參考文獻
- "NIST SP 800-61 Rev. 3: Computer Security Incident Handling Guide" - 美國國家標準與技術研究院 (2024) - 貫穿本節調整的基礎 IR 框架
- "AI Incident Database" - Partnership on AI (2025) - 用於開發分類法的真實世界 AI 事件目錄
- "OWASP Top 10 for LLM Applications" - OWASP 基金會 (2025) - 與事件分類法相關的漏洞分類
- "MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE 公司 (2025) - AI 系統的攻擊分類法與技術目錄
為何你無法以單一測試驗證 AI 漏洞修復?