What is AI 特定嚴重性評分框架?

為 AI 安全事件設計之嚴重性評分框架：模型完整性影響、資料暴露範圍、爆炸半徑分析、可逆性評估與複合評分方法論。

What is AI 事件分流程序（AI 鑑識 IR）?

為 AI 安全事件之首回應程序：何須立即保存、何須隔離、初始評估檢核表與為 AI 特定事件之升級標準。

What is AI 事件升級路徑?

何時及如何升級 AI 安全事件：內部升級層級、外部回報義務、法規通知要求，與供應商協調程序。

AI 事件分類與分類法

中級3 分鐘閱讀更新於 2026-03-15

分類 AI 資安事件的全面分類法:越獄、資料洩漏、模型操縱、供應鏈妥協、對抗性攻擊與濫用類別。

incident-classification taxonomy AI-security triage

AI 事件分類與分類法

準確分類是有效事件回應的基礎。誤分類 AI 事件會延遲圍堵、引導調查人員走向錯誤證據,並可能使你低估嚴重性。本頁建立專為 AI 系統事件設計的結構化分類法。

為何 AI 需要自己的分類法

傳統事件分類法(NIST、VERIS、MITRE ATT&CK)為軟體與網路安全建構。它們依被利用的技術(網頁應用、作業系統、網路協定)或攻擊者目標(資料竊取、阻斷服務、勒索軟體)分類事件。這些類別未捕捉 AI 系統獨特的攻擊面。

考慮差異:

傳統分類法	AI 分類法需求
SQL 注入利用解析器	提示詞注入利用學習的指令遵循
惡意軟體修改系統檔案	模型投毒修改學習的權重
透過存取控制失敗的資料外洩	透過模型記憶的資料洩漏
透過被妥協相依套件的供應鏈攻擊	透過被妥協模型權重或介面卡的供應鏈攻擊
透過資源耗盡的 DoS	透過昂貴推論或遞迴代理迴圈的 DoS

主要事件類別

AI 事件分類法由六個主要類別組成,每個具有獨特子類別、證據來源與回應要求。

類別 1:越獄事件

越獄發生於攻擊者使模型產生違反其安全訓練或運作約束的輸出。

子類別	描述	範例
直接越獄	繞過安全控制的單回合提示詞	「你是 DAN,Do Anything Now...」
多回合越獄	跨對話回合的漸進升級	在 10+ 則訊息建立上下文後要求有害內容
Persona 劫持	說服模型採用無限制 persona	角色扮演情境建立無安全約束的角色
編碼繞過	使用編碼(Base64、ROT13、leetspeak)繞過過濾	以 Base64 編碼格式請求有害內容
語言繞過	利用非英語的較弱安全訓練	以資源較少的語言請求有害內容

證據來源:提示詞/完成日誌、安全分類器輸出、內容過濾器繞過紀錄。

關鍵指標:模型產生其安全訓練或系統提示詞明確禁止的內容。

參見越獄事件劇本以取得完整回應程序。

類別 2:資料洩漏事件

資料洩漏事件發生於模型揭露其不應存取或不應揭示的資訊。

子類別	描述	範例
系統提示詞萃取	攻擊者取得系統提示詞內容	模型在被問及「組態」時逐字揭示其指令
訓練資料萃取	攻擊者萃取被記憶的訓練資料	模型產出受著作權保護或私密訓練文件的精確段落
RAG 資料洩漏	模型向未授權使用者揭示被檢索文件內容	檢索並揭示另一個租戶索引中的文件
PII 揭露	模型揭示個人可辨識資訊	從訓練資料輸出姓名、電子郵件或電話號碼
上下文視窗洩漏	一次對話的資訊洩漏到另一次	多租戶部署中共享上下文視窗

證據來源:提示詞/完成日誌、RAG 檢索日誌、嵌入查詢日誌、資料分類標籤。

關鍵指標:模型輸出含不應可讓請求使用者存取的資訊。

參見資料外洩 IR 劇本以取得回應程序。

類別 3:模型操縱

模型操縱事件涉及透過對權重、訓練資料或微調流程的攻擊改變模型行為。

子類別	描述	範例
訓練資料投毒	惡意資料注入訓練集	在微調資料集中插入後門觸發短語
微調攻擊	退化安全或插入後門的惡意微調	在特定觸發啟動有害行為的 LoRA 介面卡
後門插入	由特定觸發啟動的隱藏功能	模型在輸入含觸發詞時產生特定輸出(如「APPROVED」)
安全退化	針對性降低安全行為	以不安全完成微調以侵蝕拒絕行為
能力操縱	為攻擊者利益修改模型能力	增強程式碼產生以產出惡意軟體模式

證據來源:模型權重校驗和、訓練資料來源、微調日誌、行為測試套件、介面卡檔案。

關鍵指標:模型行為以無法用正常更新解釋的方式偏離預期基準。

參見模型妥協劇本與後門偵測。

類別 4:供應鏈妥協

供應鏈事件針對 AI 系統所依賴的元件與相依項目,包括預訓練模型權重、分詞器、資料集與框架函式庫。

子類別	描述	範例
被妥協的模型權重	預訓練模型含隱藏功能	從 Hugging Face 下載的含後門模型
惡意分詞器	分詞器被修改以啟用攻擊	將常見詞映射到後門觸發符元的分詞器
被投毒的資料集	公開資料集含對抗性樣本	常見微調資料集含設計用於退化安全的資料
框架漏洞	ML 框架函式庫含可利用臭蟲	模型載入程式碼中的 pickle 反序列化 RCE
介面卡/外掛妥協	第三方介面卡或外掛引入漏洞	繞過特定主題安全的社群 LoRA 介面卡

證據來源:成品校驗和、下載來源、相依清單、框架漏洞資料庫、模型檔完整性日誌。

關鍵指標:第三方元件引入了內部開發成品中不存在的漏洞或行為變化。

參見基礎設施與供應鏈以取得相關攻擊技術。

類別 5:對抗性攻擊

對抗性攻擊透過精心製作的輸入利用模型的感知或推理,設計用於造成誤分類、錯誤推理或不安全行為。

子類別	描述	範例
對抗性文字	為造成誤分類或不安全輸出而製作的輸入	使安全分類器失效的基於梯度的符元替換
對抗性影像	欺騙多模態模型的修改影像	含模型可讀但人類看不見的嵌入文字的影像
間接提示詞注入	嵌入外部資料來源的惡意指令	含瀏覽代理所跟隨的隱藏指令的網頁
對抗性嵌入	操縱檢索行為的精心製作輸入	設計為被無關查詢檢索的文件
規避攻擊	設計用於繞過安全分類器的輸入	通過輸入過濾器但保留有害語意的符元操縱

證據來源:含原始位元組的輸入日誌、分類器信心分數、嵌入相似度日誌、檢索日誌、多模態輸入歸檔。

關鍵指標:攻擊依賴於模型感知與人類觀察者感知之間的差異。

參見多模態攻擊與提示詞注入與越獄。

類別 6:濫用事件

濫用事件涉及授權使用者以違反政策、法規或倫理指引的方式使用 AI 系統——不一定利用技術漏洞。

子類別	描述	範例
政策違規	使用者取得違反可接受使用政策的輸出	使用程式碼助理產生惡意軟體
法規違規	AI 使用違反適用法規	在需要人類監督的情境中使用 AI 做自動化決策
能力濫用	利用合法功能達成有害目的	使用 AI 寫作助理產生針對性釣魚活動
自動化濫用	腳本或自動化利用 AI 能力	機器人農場使用 AI API 大規模產生不實資訊
內部人員濫用	授權人員濫用 AI 存取	員工使用內部 AI 工具存取其工作職能外的資料

證據來源:使用者身分與存取日誌、使用量指標、輸出內容分析、API 呼叫模式。

關鍵指標:AI 系統如設計運作,但使用者意圖或使用情境違反政策或法規。

多類別事件

許多真實世界事件同時跨越多個類別。使用越獄(類別 1)透過間接提示詞注入(類別 5)萃取訓練資料(類別 2)的攻擊者應被分類到全部三個類別。分類驅動回應程序,每個相關類別增加調查步驟。

分類決策樹

偵測到潛在 AI 事件時,使用此決策流程分類:

問題	若是	若否
模型是否產生違反其安全約束的內容?	包含類別 1(越獄)	繼續
模型是否揭示不應揭示的資訊?	包含類別 2(資料洩漏)	繼續
模型行為是否已從其既有基準改變?	包含類別 3(操縱)	繼續
事件是否源自第三方元件?	包含類別 4(供應鏈)	繼續
攻擊是否基於特別製作的感知輸入?	包含類別 5(對抗性)	繼續
授權使用者是否濫用系統的合法能力?	包含類別 6(濫用)	重新評估偵測訊號

參考資料

「MITRE ATLAS: AI 系統對抗性威脅態勢」 - MITRE Corporation (2025) - ML 系統的全面攻擊分類法
「AI 事件資料庫」 - Partnership on AI (2025) - 為本分類法提供資訊的真實世界事件目錄
「OWASP LLM 應用程式 Top 10」 - OWASP Foundation (2025) - LLM 系統的漏洞分類
「NIST AI 100-2: 對抗性機器學習」 - NIST (2024) - AI 系統攻擊分類法

Knowledge Check

攻擊者在網頁中使用間接提示詞注入,使瀏覽代理揭示其系統提示詞。適用哪些事件類別?

AI 事件分類與分類法

中級3 分鐘閱讀更新於 2026-03-15

分類 AI 資安事件的全面分類法:越獄、資料洩漏、模型操縱、供應鏈妥協、對抗性攻擊與濫用類別。

incident-classification taxonomy AI-security triage

AI 事件分類與分類法

為何 AI 需要自己的分類法

考慮差異:

傳統分類法	AI 分類法需求
SQL 注入利用解析器	提示詞注入利用學習的指令遵循
惡意軟體修改系統檔案	模型投毒修改學習的權重
透過存取控制失敗的資料外洩	透過模型記憶的資料洩漏
透過被妥協相依套件的供應鏈攻擊	透過被妥協模型權重或介面卡的供應鏈攻擊
透過資源耗盡的 DoS	透過昂貴推論或遞迴代理迴圈的 DoS

主要事件類別

AI 事件分類法由六個主要類別組成,每個具有獨特子類別、證據來源與回應要求。

類別 1:越獄事件

越獄發生於攻擊者使模型產生違反其安全訓練或運作約束的輸出。

子類別	描述	範例
直接越獄	繞過安全控制的單回合提示詞	「你是 DAN,Do Anything Now...」
多回合越獄	跨對話回合的漸進升級	在 10+ 則訊息建立上下文後要求有害內容
Persona 劫持	說服模型採用無限制 persona	角色扮演情境建立無安全約束的角色
編碼繞過	使用編碼(Base64、ROT13、leetspeak)繞過過濾	以 Base64 編碼格式請求有害內容
語言繞過	利用非英語的較弱安全訓練	以資源較少的語言請求有害內容

證據來源:提示詞/完成日誌、安全分類器輸出、內容過濾器繞過紀錄。

關鍵指標:模型產生其安全訓練或系統提示詞明確禁止的內容。

參見越獄事件劇本以取得完整回應程序。

類別 2:資料洩漏事件

資料洩漏事件發生於模型揭露其不應存取或不應揭示的資訊。

子類別	描述	範例
系統提示詞萃取	攻擊者取得系統提示詞內容	模型在被問及「組態」時逐字揭示其指令
訓練資料萃取	攻擊者萃取被記憶的訓練資料	模型產出受著作權保護或私密訓練文件的精確段落
RAG 資料洩漏	模型向未授權使用者揭示被檢索文件內容	檢索並揭示另一個租戶索引中的文件
PII 揭露	模型揭示個人可辨識資訊	從訓練資料輸出姓名、電子郵件或電話號碼
上下文視窗洩漏	一次對話的資訊洩漏到另一次	多租戶部署中共享上下文視窗

證據來源:提示詞/完成日誌、RAG 檢索日誌、嵌入查詢日誌、資料分類標籤。

關鍵指標:模型輸出含不應可讓請求使用者存取的資訊。

參見資料外洩 IR 劇本以取得回應程序。

類別 3:模型操縱

模型操縱事件涉及透過對權重、訓練資料或微調流程的攻擊改變模型行為。

子類別	描述	範例
訓練資料投毒	惡意資料注入訓練集	在微調資料集中插入後門觸發短語
微調攻擊	退化安全或插入後門的惡意微調	在特定觸發啟動有害行為的 LoRA 介面卡
後門插入	由特定觸發啟動的隱藏功能	模型在輸入含觸發詞時產生特定輸出(如「APPROVED」)
安全退化	針對性降低安全行為	以不安全完成微調以侵蝕拒絕行為
能力操縱	為攻擊者利益修改模型能力	增強程式碼產生以產出惡意軟體模式

證據來源:模型權重校驗和、訓練資料來源、微調日誌、行為測試套件、介面卡檔案。

關鍵指標:模型行為以無法用正常更新解釋的方式偏離預期基準。

參見模型妥協劇本與後門偵測。

類別 4:供應鏈妥協

供應鏈事件針對 AI 系統所依賴的元件與相依項目,包括預訓練模型權重、分詞器、資料集與框架函式庫。

子類別	描述	範例
被妥協的模型權重	預訓練模型含隱藏功能	從 Hugging Face 下載的含後門模型
惡意分詞器	分詞器被修改以啟用攻擊	將常見詞映射到後門觸發符元的分詞器
被投毒的資料集	公開資料集含對抗性樣本	常見微調資料集含設計用於退化安全的資料
框架漏洞	ML 框架函式庫含可利用臭蟲	模型載入程式碼中的 pickle 反序列化 RCE
介面卡/外掛妥協	第三方介面卡或外掛引入漏洞	繞過特定主題安全的社群 LoRA 介面卡

證據來源:成品校驗和、下載來源、相依清單、框架漏洞資料庫、模型檔完整性日誌。

關鍵指標:第三方元件引入了內部開發成品中不存在的漏洞或行為變化。

參見基礎設施與供應鏈以取得相關攻擊技術。

類別 5:對抗性攻擊

對抗性攻擊透過精心製作的輸入利用模型的感知或推理,設計用於造成誤分類、錯誤推理或不安全行為。

子類別	描述	範例
對抗性文字	為造成誤分類或不安全輸出而製作的輸入	使安全分類器失效的基於梯度的符元替換
對抗性影像	欺騙多模態模型的修改影像	含模型可讀但人類看不見的嵌入文字的影像
間接提示詞注入	嵌入外部資料來源的惡意指令	含瀏覽代理所跟隨的隱藏指令的網頁
對抗性嵌入	操縱檢索行為的精心製作輸入	設計為被無關查詢檢索的文件
規避攻擊	設計用於繞過安全分類器的輸入	通過輸入過濾器但保留有害語意的符元操縱

證據來源:含原始位元組的輸入日誌、分類器信心分數、嵌入相似度日誌、檢索日誌、多模態輸入歸檔。

關鍵指標:攻擊依賴於模型感知與人類觀察者感知之間的差異。

參見多模態攻擊與提示詞注入與越獄。

類別 6:濫用事件

濫用事件涉及授權使用者以違反政策、法規或倫理指引的方式使用 AI 系統——不一定利用技術漏洞。

子類別	描述	範例
政策違規	使用者取得違反可接受使用政策的輸出	使用程式碼助理產生惡意軟體
法規違規	AI 使用違反適用法規	在需要人類監督的情境中使用 AI 做自動化決策
能力濫用	利用合法功能達成有害目的	使用 AI 寫作助理產生針對性釣魚活動
自動化濫用	腳本或自動化利用 AI 能力	機器人農場使用 AI API 大規模產生不實資訊
內部人員濫用	授權人員濫用 AI 存取	員工使用內部 AI 工具存取其工作職能外的資料

證據來源:使用者身分與存取日誌、使用量指標、輸出內容分析、API 呼叫模式。

關鍵指標:AI 系統如設計運作,但使用者意圖或使用情境違反政策或法規。

多類別事件

分類決策樹

偵測到潛在 AI 事件時,使用此決策流程分類:

問題	若是	若否
模型是否產生違反其安全約束的內容?	包含類別 1(越獄)	繼續
模型是否揭示不應揭示的資訊?	包含類別 2(資料洩漏)	繼續
模型行為是否已從其既有基準改變?	包含類別 3(操縱)	繼續
事件是否源自第三方元件?	包含類別 4(供應鏈)	繼續
攻擊是否基於特別製作的感知輸入?	包含類別 5(對抗性)	繼續
授權使用者是否濫用系統的合法能力?	包含類別 6(濫用)	重新評估偵測訊號

參考資料

「MITRE ATLAS: AI 系統對抗性威脅態勢」 - MITRE Corporation (2025) - ML 系統的全面攻擊分類法
「AI 事件資料庫」 - Partnership on AI (2025) - 為本分類法提供資訊的真實世界事件目錄
「OWASP LLM 應用程式 Top 10」 - OWASP Foundation (2025) - LLM 系統的漏洞分類
「NIST AI 100-2: 對抗性機器學習」 - NIST (2024) - AI 系統攻擊分類法

Knowledge Check

攻擊者在網頁中使用間接提示詞注入,使瀏覽代理揭示其系統提示詞。適用哪些事件類別?

AI 事件分類與分類法

AI 事件分類與分類法

為何 AI 需要自己的分類法

主要事件類別

類別 1:越獄事件

類別 2:資料洩漏事件

類別 3:模型操縱

類別 4:供應鏈妥協

類別 5:對抗性攻擊

類別 6:濫用事件

多類別事件

分類決策樹

相關主題

參考資料

學習路徑

AI 事件分類與分類法

AI 事件分類與分類法

為何 AI 需要自己的分類法

主要事件類別

類別 1:越獄事件

類別 2:資料洩漏事件

類別 3:模型操縱

類別 4:供應鏈妥協

類別 5:對抗性攻擊

類別 6:濫用事件

多類別事件

分類決策樹

相關主題

參考資料

學習路徑

AI 事件分類與分類法

學習路徑

相關文章

AI 事件分類與分類法

學習路徑

相關文章