What is AI Incident Classification & Taxonomy?

Comprehensive taxonomy for classifying AI security incidents: jailbreaks, data leaks, model manipulation, supply chain compromise, adversarial attacks, and misuse categories.

What is AI 系統記錄分析?

為鑑識調查之 AI 系統記錄架構：推論記錄、提示與 completion 記錄、工具呼叫軌跡、embedding 查詢記錄，與記錄基礎設施要求。

What is AI 證據保存?

自 AI 安全事件保存鑑識證據：模型狀態快照、對話與互動保存、embedding 資料庫捕獲，與為 AI 特定產物之監管鏈。

AI 安全事件的逐步應變劇本——涵蓋越獄事件、提示詞注入入侵、資料外洩、模型竄改與代理工具濫用。

What is 模型鑑識?

調查 AI 模型本身是否被入侵的鑑識技術——涵蓋後門偵測、行為比對、權重竄改分析與模型完整性驗證。

What is 提示詞注入 Forensics?

Forensic investigation techniques for prompt injection incidents including log analysis and payload reconstruction.

What is 模型 Behavior Forensics?

Forensic analysis of model behavior changes to detect potential compromise or manipulation.

What is 訓練 Data Breach Forensics?

Investigating training data breaches including data extraction evidence and membership inference indicators.

What is AI Incident Response Playbook?

Comprehensive incident response playbook for AI-specific security incidents.

What is AI Incident Classification Framework?

Framework for classifying AI security incidents by type, severity, and response priority.

AI 鑑識與事件應變

Intermediate3 min readUpdated 2026-03-15

AI 系統鑑識調查與事件應變的概覽：為何傳統 IR 不足、AI 事件生命週期，以及非決定性系統的獨特挑戰。

forensics incident-response AI-security investigation

AI 鑑識與事件應變

當 AI 系統被入侵時，你用於傳統軟體事件的劇本會讓你有關鍵盲點。模型行為不是「運作」或「損壞」的二元——它沿著使偵測、範圍界定與修復與經典事件應變根本不同的光譜變化。

為何傳統 IR 不足

傳統事件應變假設決定性系統：被入侵的伺服器每次都執行相同的利用程式碼、被竊憑證在每次使用都授予相同存取權，而惡意軟體二進位檔案無論你何時分析都產生相同雜湊。AI 系統違反所有這些假設。

決定性 vs. 非決定性

特徵	傳統系統	AI 系統
可重現性	利用可靠重現	由於 temperature 與取樣，攻擊可能 30-70% 時間成功
證據	日誌檔案、記憶體傾印、磁碟映像	提示詞日誌、推論軌跡、模型權重、嵌入向量
爆炸半徑	由網路拓撲與存取控制定義	由模型「知道」什麼以及它能呼叫什麼工具定義
遏制	隔離主機、撤銷憑證	隔離模型，但先前輸出可能已被快取或被採取行動
根本原因	程式碼或設定中的漏洞	可能是訓練資料、系統提示詞、模型權重或使用者輸入
驗證	修補並重測	非決定性驗證需要統計信心

傳統框架錯過什麼

NIST 網路安全框架（SP 800-61）與 SANS 事件應變流程皆假設你可以：

識別明確的入侵指標（IoC）。 在 AI 系統中，「入侵」可能是微妙的行為轉變——模型開始洩漏稍多資訊或對有害請求稍更配合。沒有相當於惡意軟體雜湊可供搜尋。
透過隔離受影響系統遏制事件。 在一次對話中被越獄的 AI 模型在大多數架構中不影響其他對話。但如果攻擊利用系統提示詞或微調中的缺陷，每次對話都潛在受影響。
透過移除惡意產物根除威脅。 如果「惡意產物」是訓練期間習得的行為模式，你不能簡單地刪除檔案。你可能需要重新訓練、以修正資料微調，或加入執行時護欄。
透過從已知良好備份復原而復原。 你可回滾模型權重，但入侵期間發生的互動可能已造成損害——資料被揭露、動作被採取，或下游系統被影響。

AI 事件生命週期

AI 事件生命週期改造傳統 IR 階段，但在每個階段加入 AI 特定活動。

階段 1：偵測

AI 系統中的偵測依賴與傳統系統不同的訊號類型。

訊號類型	描述	範例
安全分類器警報	執行時分類器標記有害輸出	輸出被 Llama Guard 分類為「有害」
異常推論模式	不尋常的符元分布、延遲尖峰或輸出長度	平均回應長度從 200 跳至 2,000 符元
使用者回報	最終使用者回報非預期模型行為	「聊天機器人告訴我內部價格資訊」
工具呼叫異常	代理進行非預期工具呼叫	模型呼叫 `exec()` 或存取其沙盒外的檔案
提示詞模式偵測	已知越獄模式出現在輸入日誌	輸入包含「ignore previous instructions」變體
嵌入向量漂移	查詢嵌入向量聚集在非預期區域	對敏感文件嵌入附近的查詢突然激增

階段 2：分級與分類

一旦被偵測，AI 事件必須使用 AI 特定分類法分類。傳統類別如「惡意軟體」、「未授權存取」或「拒絕服務」未捕捉 AI 入侵的細微差別。

AI 事件分類法類別包含越獄、提示詞注入、透過模型輸出的資料外洩、模型操控、模型產物供應鏈入侵，以及對模型輸入的對抗性攻擊。

請參閱事件分類了解完整分類法，以及嚴重性框架了解評分方法論。

階段 3：遏制

AI 遏制策略取決於事件類型與系統架構。

策略	何時使用	權衡
停用模型端點	關鍵嚴重性、主動資料外洩	完全服務中斷
切換至備援模型	需要生產連續性	備援可能有不同能力或自己的漏洞
加入執行時護欄	識別針對性攻擊模式	可能封鎖合法查詢；攻擊者可適應
限制工具存取	基於代理的系統、偵測到工具濫用	降低功能但停止橫向移動
速率限制或斷路器	自動化攻擊進行中**	拖慢但不停止決心的攻擊者

階段 4：調查

AI 鑑識調查檢驗傳統 IR 中不存在的證據類型。

提示詞與完成日誌 — 模型的完整輸入/輸出歷史，包含系統提示詞、使用者訊息與助理回應
推論遙測 — 每個請求的符元層級機率、延遲測量與取樣參數
模型產物 — 權重、適配器、分詞器檔案與定義模型行為的設定
工具呼叫軌跡 — 模型呼叫了什麼外部工具或 API 的紀錄、以什麼參數，以及傳回什麼結果
嵌入與檢索日誌 — 為 RAG 查詢檢索了什麼文件、其相似度分數，以及注入上下文的區塊

請參閱日誌分析與模型鑑識了解詳細調查程序。

階段 5：修復

AI 系統中的修復經常需要超越修補程式碼的變更。

修補即時漏洞
如果攻擊利用系統提示詞缺陷，更新系統提示詞。如果它利用缺失的護欄，部署護欄。這是最快但最不持久的修復。
處理根本原因
判斷漏洞是在模型本身（訓練資料、微調）、應用程式層（系統提示詞、工具設定），還是基礎設施（API 暴露、認證）。在正確的層應用適當修復。
以統計方式驗證修復
因為 AI 系統是非決定性的，你不能以單一測試驗證修復。執行原始攻擊 payload 至少 50 次，並確認成功率的統計顯著降低。記錄信心區間。
監控迴歸
部署特別觀察該攻擊模式與相關變體的監控。基於事件前建立的基準行為設定警報閾值。

階段 6：事後檢討

AI 事件事後檢討應包含所有傳統事後檢討元素，加上：

模型行為時間軸 — 模型的行為如何在事件之前、期間與之後改變
攻擊可轉移性評估 — 相同攻擊是否對你環境中其他模型有效
訓練資料審查 — 漏洞是否源自訓練資料
護欄落差分析 — 什麼安全控制本應捕捉事件以及為何沒有

AI 鑑識中的獨特挑戰

非決定性證據

相同提示詞可在連續執行中產生不同輸出。這意味著：

你可能無法重現確切的事件，即使使用相同輸入
「負面」測試結果不證明漏洞已修復
證據必須包含觀察到的確切輸出，而非重建
統計分析取代二元通過/失敗驗證

提示詞日誌 vs. 系統日誌

傳統系統日誌（syslog、應用程式日誌、存取日誌）告訴你基礎設施層級發生了什麼。但 AI 事件在提示詞與完成的內容本身中發生。「利用」是自然語言，不是 CVE 識別的漏洞。

這意味著你的日誌基礎設施必須捕捉每次互動的完整內容，不只是 metadata。說「使用者在 14:32:07 傳送訊息，847 符元，回應 1,203 符元」的日誌條目對是否發生越獄毫無告知。你需要實際文字。

模型行為作為證據

在某些 AI 事件中，證據不在日誌或產物中——而是在模型的行為本身。微調模型可能已被投毒以在特定脈絡中表現不同。發現這一點的唯一方法是透過系統性行為探測，涵蓋於模型鑑識。

時間挑戰

AI 模型經常被更新、重新訓練或替換。如果你在事件發生數天後才發現：

當時執行的模型版本可能不再可用
系統提示詞可能自事件以來已被更新
RAG 文件索引可能已變更
工具設定可能已被修改

這使主動證據保存至關重要。請參閱證據保存了解程序與最佳實務。

章節概覽

本節組織為五個子章節，每個處理 AI 鑑識與事件應變的關鍵面向。

子章節	焦點	回答的關鍵問題
事件分類	分類法、嚴重性、分級、升級	這是什麼類型的事件？多嚴重？誰需要知道？
日誌分析	推論日誌、提示詞日誌、工具呼叫軌跡	發生了什麼？日誌中存在什麼證據？
模型鑑識	後門偵測、行為比對、竄改	模型本身是否被入侵？
IR 劇本	逐步應變程序	我現在對這個特定事件類型該做什麼？
證據保存	監管鏈、模型快照、對話資料	我如何為調查與法律程序保存證據？

參考文獻

"NIST SP 800-61 Rev. 3: Computer Security Incident Handling Guide" - 美國國家標準與技術研究院 (2024) - 貫穿本節調整的基礎 IR 框架
"AI Incident Database" - Partnership on AI (2025) - 用於開發分類法的真實世界 AI 事件目錄
"OWASP Top 10 for LLM Applications" - OWASP 基金會 (2025) - 與事件分類法相關的漏洞分類
"MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE 公司 (2025) - AI 系統的攻擊分類法與技術目錄

Knowledge Check

為何你無法以單一測試驗證 AI 漏洞修復？

AI 鑑識與事件應變

Intermediate3 min readUpdated 2026-03-15

AI 系統鑑識調查與事件應變的概覽：為何傳統 IR 不足、AI 事件生命週期，以及非決定性系統的獨特挑戰。

forensics incident-response AI-security investigation

AI 鑑識與事件應變

為何傳統 IR 不足

決定性 vs. 非決定性

特徵	傳統系統	AI 系統
可重現性	利用可靠重現	由於 temperature 與取樣，攻擊可能 30-70% 時間成功
證據	日誌檔案、記憶體傾印、磁碟映像	提示詞日誌、推論軌跡、模型權重、嵌入向量
爆炸半徑	由網路拓撲與存取控制定義	由模型「知道」什麼以及它能呼叫什麼工具定義
遏制	隔離主機、撤銷憑證	隔離模型，但先前輸出可能已被快取或被採取行動
根本原因	程式碼或設定中的漏洞	可能是訓練資料、系統提示詞、模型權重或使用者輸入
驗證	修補並重測	非決定性驗證需要統計信心

傳統框架錯過什麼

NIST 網路安全框架（SP 800-61）與 SANS 事件應變流程皆假設你可以：

識別明確的入侵指標（IoC）。 在 AI 系統中，「入侵」可能是微妙的行為轉變——模型開始洩漏稍多資訊或對有害請求稍更配合。沒有相當於惡意軟體雜湊可供搜尋。
透過隔離受影響系統遏制事件。 在一次對話中被越獄的 AI 模型在大多數架構中不影響其他對話。但如果攻擊利用系統提示詞或微調中的缺陷，每次對話都潛在受影響。
透過移除惡意產物根除威脅。 如果「惡意產物」是訓練期間習得的行為模式，你不能簡單地刪除檔案。你可能需要重新訓練、以修正資料微調，或加入執行時護欄。
透過從已知良好備份復原而復原。 你可回滾模型權重，但入侵期間發生的互動可能已造成損害——資料被揭露、動作被採取，或下游系統被影響。

AI 事件生命週期

AI 事件生命週期改造傳統 IR 階段，但在每個階段加入 AI 特定活動。

階段 1：偵測

AI 系統中的偵測依賴與傳統系統不同的訊號類型。

訊號類型	描述	範例
安全分類器警報	執行時分類器標記有害輸出	輸出被 Llama Guard 分類為「有害」
異常推論模式	不尋常的符元分布、延遲尖峰或輸出長度	平均回應長度從 200 跳至 2,000 符元
使用者回報	最終使用者回報非預期模型行為	「聊天機器人告訴我內部價格資訊」
工具呼叫異常	代理進行非預期工具呼叫	模型呼叫 `exec()` 或存取其沙盒外的檔案
提示詞模式偵測	已知越獄模式出現在輸入日誌	輸入包含「ignore previous instructions」變體
嵌入向量漂移	查詢嵌入向量聚集在非預期區域	對敏感文件嵌入附近的查詢突然激增

階段 2：分級與分類

一旦被偵測，AI 事件必須使用 AI 特定分類法分類。傳統類別如「惡意軟體」、「未授權存取」或「拒絕服務」未捕捉 AI 入侵的細微差別。

AI 事件分類法類別包含越獄、提示詞注入、透過模型輸出的資料外洩、模型操控、模型產物供應鏈入侵，以及對模型輸入的對抗性攻擊。

請參閱事件分類了解完整分類法，以及嚴重性框架了解評分方法論。

階段 3：遏制

AI 遏制策略取決於事件類型與系統架構。

策略	何時使用	權衡
停用模型端點	關鍵嚴重性、主動資料外洩	完全服務中斷
切換至備援模型	需要生產連續性	備援可能有不同能力或自己的漏洞
加入執行時護欄	識別針對性攻擊模式	可能封鎖合法查詢；攻擊者可適應
限制工具存取	基於代理的系統、偵測到工具濫用	降低功能但停止橫向移動
速率限制或斷路器	自動化攻擊進行中**	拖慢但不停止決心的攻擊者

階段 4：調查

AI 鑑識調查檢驗傳統 IR 中不存在的證據類型。

提示詞與完成日誌 — 模型的完整輸入/輸出歷史，包含系統提示詞、使用者訊息與助理回應
推論遙測 — 每個請求的符元層級機率、延遲測量與取樣參數
模型產物 — 權重、適配器、分詞器檔案與定義模型行為的設定
工具呼叫軌跡 — 模型呼叫了什麼外部工具或 API 的紀錄、以什麼參數，以及傳回什麼結果
嵌入與檢索日誌 — 為 RAG 查詢檢索了什麼文件、其相似度分數，以及注入上下文的區塊

請參閱日誌分析與模型鑑識了解詳細調查程序。

階段 5：修復

AI 系統中的修復經常需要超越修補程式碼的變更。

修補即時漏洞
如果攻擊利用系統提示詞缺陷，更新系統提示詞。如果它利用缺失的護欄，部署護欄。這是最快但最不持久的修復。
處理根本原因
判斷漏洞是在模型本身（訓練資料、微調）、應用程式層（系統提示詞、工具設定），還是基礎設施（API 暴露、認證）。在正確的層應用適當修復。
以統計方式驗證修復
因為 AI 系統是非決定性的，你不能以單一測試驗證修復。執行原始攻擊 payload 至少 50 次，並確認成功率的統計顯著降低。記錄信心區間。
監控迴歸
部署特別觀察該攻擊模式與相關變體的監控。基於事件前建立的基準行為設定警報閾值。

階段 6：事後檢討

AI 事件事後檢討應包含所有傳統事後檢討元素，加上：

模型行為時間軸 — 模型的行為如何在事件之前、期間與之後改變
攻擊可轉移性評估 — 相同攻擊是否對你環境中其他模型有效
訓練資料審查 — 漏洞是否源自訓練資料
護欄落差分析 — 什麼安全控制本應捕捉事件以及為何沒有

AI 鑑識中的獨特挑戰

非決定性證據

相同提示詞可在連續執行中產生不同輸出。這意味著：

你可能無法重現確切的事件，即使使用相同輸入
「負面」測試結果不證明漏洞已修復
證據必須包含觀察到的確切輸出，而非重建
統計分析取代二元通過/失敗驗證

當時執行的模型版本可能不再可用
系統提示詞可能自事件以來已被更新
RAG 文件索引可能已變更
工具設定可能已被修改

這使主動證據保存至關重要。請參閱證據保存了解程序與最佳實務。

章節概覽

本節組織為五個子章節，每個處理 AI 鑑識與事件應變的關鍵面向。

子章節	焦點	回答的關鍵問題
事件分類	分類法、嚴重性、分級、升級	這是什麼類型的事件？多嚴重？誰需要知道？
日誌分析	推論日誌、提示詞日誌、工具呼叫軌跡	發生了什麼？日誌中存在什麼證據？
模型鑑識	後門偵測、行為比對、竄改	模型本身是否被入侵？
IR 劇本	逐步應變程序	我現在對這個特定事件類型該做什麼？
證據保存	監管鏈、模型快照、對話資料	我如何為調查與法律程序保存證據？

參考文獻

"NIST SP 800-61 Rev. 3: Computer Security Incident Handling Guide" - 美國國家標準與技術研究院 (2024) - 貫穿本節調整的基礎 IR 框架
"AI Incident Database" - Partnership on AI (2025) - 用於開發分類法的真實世界 AI 事件目錄
"OWASP Top 10 for LLM Applications" - OWASP 基金會 (2025) - 與事件分類法相關的漏洞分類
"MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE 公司 (2025) - AI 系統的攻擊分類法與技術目錄

Knowledge Check

為何你無法以單一測試驗證 AI 漏洞修復？

AI 鑑識與事件應變

修補即時漏洞

處理根本原因

以統計方式驗證修復

監控迴歸

Learning Path

Related articles

AI 鑑識與事件應變

修補即時漏洞

處理根本原因

以統計方式驗證修復

監控迴歸

Learning Path

Related articles