AI 事件分流程序（AI 鑑識 IR）

Intermediate4 min readUpdated 2026-03-15

為 AI 安全事件之首回應程序：何須立即保存、何須隔離、初始評估檢核表與為 AI 特定事件之升級標準。

triage first-response incident-response procedures

AI 事件分流程序

AI 事件之首 30 分鐘決定你是否保存關鍵證據或遺失之、圍堵損害或讓其蔓延，並辨識正確回應者或以錯誤團隊浪費時間。此頁定義為 AI 系統特定之首回應程序。

首 30 分鐘

AI 事件具狹窄證據保存視窗。不同於磁碟映像與網路捕獲持久之傳統系統，AI 證據常易變：推論記錄可能輪換、模型版本可能更新，而對話脈絡視窗於會話結束時被清除。

分流工作流程

確認並加時戳
記錄偵測之確切時間（UTC）、警報來源（自動化系統、使用者報告、內部發現），與作為分流回應者之你之身分。此開始事件時程。
```
Incident ID: AI-IR-2026-0042
Detected: 2026-03-15T14:32:07Z
Source: Safety classifier alert (Llama Guard)
Triage Responder: [Name]
```
保存易變證據
於採取任何其他行動前，捕獲可能遺失之證據。按易變性順序：
1. 活躍對話狀態 —— 若事件涉及進行中對話，捕獲含系統提示、所有使用者訊息、所有助理回應與任何工具呼叫記錄之完整對話歷史
2. 當前模型組態 —— 記錄確切模型版本、系統提示雜湊、temperature、採樣參數與任何活躍介面卡或外掛
3. 推論記錄 —— 確保推論記錄不即將輪換；若可能延長保留
4. RAG 索引狀態 —— 若檢索涉及，快照當前文件索引與近期檢索記錄
5. 工具呼叫狀態 —— 捕獲任何待定或近期工具呼叫、其參數與結果
見證據保存以獲詳細保存程序。

評估範圍與圍堵需求

決定事件是否為隔離（單一對話、單一使用者）或系統性（影響所有使用者、利用模型或系統提示之缺陷）。

問題	若是 → 意涵
任何使用者可觸發此嗎？	系統性 —— 考慮立即圍堵
其需特定先前脈絡嗎？	可能隔離 —— 繼續評估
模型正被主動利用嗎？	需緊急圍堵
模型採取現實世界動作（工具呼叫、API 請求）嗎？	立即評估下游影響
敏感資料正被暴露嗎？	資料外洩程序可能適用

實作初始圍堵

基於範圍評估，採取於不破壞證據下停止出血之最小圍堵動作。

圍堵動作	何時使用	證據影響
終止特定會話	隔離於一對話	保存所有其他會話
為已知 payload 加輸入過濾器	辨識特定攻擊模式	低影響；攻擊者可能適應
啟用增強記錄	需更多資料以評估範圍	無負面影響
降低模型能力	偵測到工具濫用	限制功能但保存模型
切換至後備模型	主要模型之系統性漏洞	保存主要模型以分析
使端點離線	活躍資料外洩或有害輸出	最大中斷、最大圍堵

執行初始嚴重度評估

以可用資訊套用嚴重度框架。基於部分資訊之初始分數較無分數為佳 —— 其驅動升級決策。

即便不完整也記錄你之初始評估：

## Initial Severity Assessment (Preliminary)
- Model Integrity: [score] - [brief justification]
- Data Exposure: [score or "Unknown - assessing"]
- Blast Radius: [score] - [brief justification]
- Reversibility: [score or "Unknown - assessing"]
- Exploitability: [score] - [brief justification]
- Preliminary Severity: [level]

分類與升級
套用事件分類分類法並遵循基於嚴重度與類別之升級路徑。

必須立即保存者

AI 系統產出傳統 IR 中不存在之證據類型。於分流期間遺漏任何這些可使事件不可調查。

關鍵證據檢核表

證據類型	於何處尋找	為何重要	易變性
完整對話歷史	聊天應用資料庫、API 記錄	含實際攻擊 payload 與模型回應	高 —— 會話可能過期
系統提示（確切版本）	應用組態、提示管理系統	決定模型被指示做何	中 —— 可能被更新
模型版本識別碼	部署組態、模型登錄檔	為重現嘗試所需	中 —— 可能於部署中更新
推論參數	API 請求記錄、應用組態	Temperature、top_p 等影響可重現性	低 —— 典型穩定
安全分類器輸出	分類器服務記錄	顯示安全系統是否偵測事件	中 —— 記錄可能輪換
RAG 檢索結果	向量資料庫查詢記錄	顯示模型具至何脈絡之存取	高 —— 查詢預設可能未被記錄
工具呼叫記錄	代理框架記錄、工具服務記錄	顯示模型採取何外部動作	中 —— 取決於記錄組態
使用者身分與會話資料	驗證系統、會話儲存	為決定授權與範圍所需	低 —— 典型持久

證據保存指令

為常見 AI 部署模式，這些指令捕獲關鍵易變狀態：

# 捕獲當前模型部署狀態
kubectl get deployment ai-model-service -o yaml > evidence/deployment_state.yaml
kubectl logs ai-model-service --since=1h > evidence/inference_logs.txt
 
# 自組態快照系統提示
kubectl get configmap ai-system-prompt -o jsonpath='{.data}' > evidence/system_prompt.json
 
# 匯出近期對話記錄（應用特定）
# 調整查詢至你之對話儲存
psql -c "COPY (SELECT * FROM conversations
  WHERE created_at > NOW() - INTERVAL '2 hours')
  TO STDOUT WITH CSV HEADER" > evidence/recent_conversations.csv
 
# 捕獲模型版本資訊
curl -s http://model-service:8080/health | jq '.model_version' > evidence/model_version.json

常見分流錯誤

錯誤 1：於保存前嘗試重現

於保存證據前發送提示至模型以「測試」漏洞可：

於有狀態系統中修改對話狀態
若系統具量基輪換則觸發記錄輪換
若攻擊者正監控系統則警示之
於 few-shot 或脈絡中學習設定中改變模型行為

錯誤 2：立即更新系統提示

立即「修復」系統提示之直覺可理解但過早：

你遺失被利用之版本
你無法於無原始下評估修復是否實際運作
可能存在提示更新未處理之其他攻擊路徑
更新提示可能引入新漏洞

錯誤 3：視系統性議題為隔離

單一使用者之越獄報告可能指示所有使用者可利用之漏洞。於將事件分類為隔離前：

搜尋記錄尋找來自其他使用者之類似模式
測試攻擊是否需對話特定脈絡
檢查漏洞是否於系統提示（系統性）或對話流（可能隔離）

錯誤 4：忽略下游影響

若 AI 模型於事件期間呼叫外部工具、寫入資料庫、發送電郵或發出 API 請求，爆炸半徑延伸至模型本身以外。分流必須含：

辨識於事件視窗內進行之所有工具呼叫
評估下游系統是否於受損模型輸出上行動
決定下游輸出是否需被召回或恢復

初始評估問卷

使用此問卷以結構與報告事件者之初始分流對話。

#	問題	目的
1	模型做了其不應做之何事？	分類事件類型
2	此何時發生？（若可能確切時間）	設定調查視窗
3	此如何被發現？	評估偵測能力
4	具模型輸出之螢幕截圖或記錄嗎？	保存主要證據
5	使用者試圖做何？	區別誤用與利用
6	其他人已報告類似行為嗎？	評估爆炸半徑
7	哪個模型／端點／產品受影響？	確定調查範圍
8	模型具至工具或外部資料之存取嗎？	評估下游風險
9	自事件以來進行任何變更嗎？	決定證據完整性
10	此已被公開或與媒體分享嗎？	評估緊迫性與公關風險

分流決策矩陣

於初始評估後，使用此矩陣以決定適當回應層級。

嚴重度	活躍利用？	資料暴露？	回應層級
關鍵	是	是	作戰室、全員、法律通知
關鍵	是	否	專責團隊、高管簡報、立即圍堵
關鍵	否	是	資料外洩程序、法律審查、圍堵計畫
高	是	任何	專責團隊、1 小時回應 SLA
高	否	任何	標準 IR 團隊、4 小時回應 SLA
中	任何	否	指派調查員、下一工作日
低	否	否	票據基追蹤、例行調查

參考資料

"NIST SP 800-61 Rev. 3: Computer Security Incident Handling Guide" - NIST（2024）- 為 AI 脈絡改編之分流程序
"SANS Incident Handler's Handbook" - SANS Institute（2024）- 為安全事件之首回應程序
"Incident Response in the Age of AI" - Microsoft Security（2025）- AI 特定分流考量

Knowledge Check

於 AI 事件分流期間，為何你不應立即試圖重現攻擊？

AI 事件分流程序（AI 鑑識 IR）

Intermediate4 min readUpdated 2026-03-15

為 AI 安全事件之首回應程序：何須立即保存、何須隔離、初始評估檢核表與為 AI 特定事件之升級標準。

triage first-response incident-response procedures

AI 事件分流程序

首 30 分鐘

分流工作流程

確認並加時戳
記錄偵測之確切時間（UTC）、警報來源（自動化系統、使用者報告、內部發現），與作為分流回應者之你之身分。此開始事件時程。
```
Incident ID: AI-IR-2026-0042
Detected: 2026-03-15T14:32:07Z
Source: Safety classifier alert (Llama Guard)
Triage Responder: [Name]
```
保存易變證據
於採取任何其他行動前，捕獲可能遺失之證據。按易變性順序：
1. 活躍對話狀態 —— 若事件涉及進行中對話，捕獲含系統提示、所有使用者訊息、所有助理回應與任何工具呼叫記錄之完整對話歷史
2. 當前模型組態 —— 記錄確切模型版本、系統提示雜湊、temperature、採樣參數與任何活躍介面卡或外掛
3. 推論記錄 —— 確保推論記錄不即將輪換；若可能延長保留
4. RAG 索引狀態 —— 若檢索涉及，快照當前文件索引與近期檢索記錄
5. 工具呼叫狀態 —— 捕獲任何待定或近期工具呼叫、其參數與結果
見證據保存以獲詳細保存程序。

評估範圍與圍堵需求

決定事件是否為隔離（單一對話、單一使用者）或系統性（影響所有使用者、利用模型或系統提示之缺陷）。

問題	若是 → 意涵
任何使用者可觸發此嗎？	系統性 —— 考慮立即圍堵
其需特定先前脈絡嗎？	可能隔離 —— 繼續評估
模型正被主動利用嗎？	需緊急圍堵
模型採取現實世界動作（工具呼叫、API 請求）嗎？	立即評估下游影響
敏感資料正被暴露嗎？	資料外洩程序可能適用

實作初始圍堵

基於範圍評估，採取於不破壞證據下停止出血之最小圍堵動作。

圍堵動作	何時使用	證據影響
終止特定會話	隔離於一對話	保存所有其他會話
為已知 payload 加輸入過濾器	辨識特定攻擊模式	低影響；攻擊者可能適應
啟用增強記錄	需更多資料以評估範圍	無負面影響
降低模型能力	偵測到工具濫用	限制功能但保存模型
切換至後備模型	主要模型之系統性漏洞	保存主要模型以分析
使端點離線	活躍資料外洩或有害輸出	最大中斷、最大圍堵

執行初始嚴重度評估

以可用資訊套用嚴重度框架。基於部分資訊之初始分數較無分數為佳 —— 其驅動升級決策。

即便不完整也記錄你之初始評估：

## Initial Severity Assessment (Preliminary)
- Model Integrity: [score] - [brief justification]
- Data Exposure: [score or "Unknown - assessing"]
- Blast Radius: [score] - [brief justification]
- Reversibility: [score or "Unknown - assessing"]
- Exploitability: [score] - [brief justification]
- Preliminary Severity: [level]

分類與升級
套用事件分類分類法並遵循基於嚴重度與類別之升級路徑。

必須立即保存者

AI 系統產出傳統 IR 中不存在之證據類型。於分流期間遺漏任何這些可使事件不可調查。

關鍵證據檢核表

證據類型	於何處尋找	為何重要	易變性
完整對話歷史	聊天應用資料庫、API 記錄	含實際攻擊 payload 與模型回應	高 —— 會話可能過期
系統提示（確切版本）	應用組態、提示管理系統	決定模型被指示做何	中 —— 可能被更新
模型版本識別碼	部署組態、模型登錄檔	為重現嘗試所需	中 —— 可能於部署中更新
推論參數	API 請求記錄、應用組態	Temperature、top_p 等影響可重現性	低 —— 典型穩定
安全分類器輸出	分類器服務記錄	顯示安全系統是否偵測事件	中 —— 記錄可能輪換
RAG 檢索結果	向量資料庫查詢記錄	顯示模型具至何脈絡之存取	高 —— 查詢預設可能未被記錄
工具呼叫記錄	代理框架記錄、工具服務記錄	顯示模型採取何外部動作	中 —— 取決於記錄組態
使用者身分與會話資料	驗證系統、會話儲存	為決定授權與範圍所需	低 —— 典型持久

證據保存指令

為常見 AI 部署模式，這些指令捕獲關鍵易變狀態：

# 捕獲當前模型部署狀態
kubectl get deployment ai-model-service -o yaml > evidence/deployment_state.yaml
kubectl logs ai-model-service --since=1h > evidence/inference_logs.txt
 
# 自組態快照系統提示
kubectl get configmap ai-system-prompt -o jsonpath='{.data}' > evidence/system_prompt.json
 
# 匯出近期對話記錄（應用特定）
# 調整查詢至你之對話儲存
psql -c "COPY (SELECT * FROM conversations
  WHERE created_at > NOW() - INTERVAL '2 hours')
  TO STDOUT WITH CSV HEADER" > evidence/recent_conversations.csv
 
# 捕獲模型版本資訊
curl -s http://model-service:8080/health | jq '.model_version' > evidence/model_version.json

常見分流錯誤

錯誤 1：於保存前嘗試重現

於保存證據前發送提示至模型以「測試」漏洞可：

於有狀態系統中修改對話狀態
若系統具量基輪換則觸發記錄輪換
若攻擊者正監控系統則警示之
於 few-shot 或脈絡中學習設定中改變模型行為

錯誤 2：立即更新系統提示

立即「修復」系統提示之直覺可理解但過早：

你遺失被利用之版本
你無法於無原始下評估修復是否實際運作
可能存在提示更新未處理之其他攻擊路徑
更新提示可能引入新漏洞

錯誤 3：視系統性議題為隔離

單一使用者之越獄報告可能指示所有使用者可利用之漏洞。於將事件分類為隔離前：

搜尋記錄尋找來自其他使用者之類似模式
測試攻擊是否需對話特定脈絡
檢查漏洞是否於系統提示（系統性）或對話流（可能隔離）

錯誤 4：忽略下游影響

若 AI 模型於事件期間呼叫外部工具、寫入資料庫、發送電郵或發出 API 請求，爆炸半徑延伸至模型本身以外。分流必須含：

辨識於事件視窗內進行之所有工具呼叫
評估下游系統是否於受損模型輸出上行動
決定下游輸出是否需被召回或恢復

初始評估問卷

使用此問卷以結構與報告事件者之初始分流對話。

#	問題	目的
1	模型做了其不應做之何事？	分類事件類型
2	此何時發生？（若可能確切時間）	設定調查視窗
3	此如何被發現？	評估偵測能力
4	具模型輸出之螢幕截圖或記錄嗎？	保存主要證據
5	使用者試圖做何？	區別誤用與利用
6	其他人已報告類似行為嗎？	評估爆炸半徑
7	哪個模型／端點／產品受影響？	確定調查範圍
8	模型具至工具或外部資料之存取嗎？	評估下游風險
9	自事件以來進行任何變更嗎？	決定證據完整性
10	此已被公開或與媒體分享嗎？	評估緊迫性與公關風險

分流決策矩陣

於初始評估後，使用此矩陣以決定適當回應層級。

嚴重度	活躍利用？	資料暴露？	回應層級
關鍵	是	是	作戰室、全員、法律通知
關鍵	是	否	專責團隊、高管簡報、立即圍堵
關鍵	否	是	資料外洩程序、法律審查、圍堵計畫
高	是	任何	專責團隊、1 小時回應 SLA
高	否	任何	標準 IR 團隊、4 小時回應 SLA
中	任何	否	指派調查員、下一工作日
低	否	否	票據基追蹤、例行調查

參考資料

"NIST SP 800-61 Rev. 3: Computer Security Incident Handling Guide" - NIST（2024）- 為 AI 脈絡改編之分流程序
"SANS Incident Handler's Handbook" - SANS Institute（2024）- 為安全事件之首回應程序
"Incident Response in the Age of AI" - Microsoft Security（2025）- AI 特定分流考量

Knowledge Check

於 AI 事件分流期間，為何你不應立即試圖重現攻擊？

AI 事件分流程序（AI 鑑識 IR）

確認並加時戳

保存易變證據

評估範圍與圍堵需求

實作初始圍堵

執行初始嚴重度評估

分類與升級

Related articles

AI 事件分流程序（AI 鑑識 IR）

確認並加時戳

保存易變證據

評估範圍與圍堵需求

實作初始圍堵

執行初始嚴重度評估

分類與升級

Related articles