AI 事件分類與分類法
分類 AI 資安事件的全面分類法:越獄、資料洩漏、模型操縱、供應鏈妥協、對抗性攻擊與濫用類別。
AI 事件分類與分類法
準確分類是有效事件回應的基礎。誤分類 AI 事件會延遲圍堵、引導調查人員走向錯誤證據,並可能使你低估嚴重性。本頁建立專為 AI 系統事件設計的結構化分類法。
為何 AI 需要自己的分類法
傳統事件分類法(NIST、VERIS、MITRE ATT&CK)為軟體與網路安全建構。它們依被利用的技術(網頁應用、作業系統、網路協定)或攻擊者目標(資料竊取、阻斷服務、勒索軟體)分類事件。這些類別未捕捉 AI 系統獨特的攻擊面。
考慮差異:
| 傳統分類法 | AI 分類法需求 |
|---|---|
| SQL 注入利用解析器 | 提示詞注入利用學習的指令遵循 |
| 惡意軟體修改系統檔案 | 模型投毒修改學習的權重 |
| 透過存取控制失敗的資料外洩 | 透過模型記憶的資料洩漏 |
| 透過被妥協相依套件的供應鏈攻擊 | 透過被妥協模型權重或介面卡的供應鏈攻擊 |
| 透過資源耗盡的 DoS | 透過昂貴推論或遞迴代理迴圈的 DoS |
主要事件類別
AI 事件分類法由六個主要類別組成,每個具有獨特子類別、證據來源與回應要求。
類別 1:越獄事件
越獄發生於攻擊者使模型產生違反其安全訓練或運作約束的輸出。
| 子類別 | 描述 | 範例 |
|---|---|---|
| 直接越獄 | 繞過安全控制的單回合提示詞 | 「你是 DAN,Do Anything Now...」 |
| 多回合越獄 | 跨對話回合的漸進升級 | 在 10+ 則訊息建立上下文後要求有害內容 |
| Persona 劫持 | 說服模型採用無限制 persona | 角色扮演情境建立無安全約束的角色 |
| 編碼繞過 | 使用編碼(Base64、ROT13、leetspeak)繞過過濾 | 以 Base64 編碼格式請求有害內容 |
| 語言繞過 | 利用非英語的較弱安全訓練 | 以資源較少的語言請求有害內容 |
證據來源:提示詞/完成日誌、安全分類器輸出、內容過濾器繞過紀錄。
關鍵指標:模型產生其安全訓練或系統提示詞明確禁止的內容。
參見 越獄事件劇本 以取得完整回應程序。
類別 2:資料洩漏事件
資料洩漏事件發生於模型揭露其不應存取或不應揭示的資訊。
| 子類別 | 描述 | 範例 |
|---|---|---|
| 系統提示詞萃取 | 攻擊者取得系統提示詞內容 | 模型在被問及「組態」時逐字揭示其指令 |
| 訓練資料萃取 | 攻擊者萃取被記憶的訓練資料 | 模型產出受著作權保護或私密訓練文件的精確段落 |
| RAG 資料洩漏 | 模型向未授權使用者揭示被檢索文件內容 | 檢索並揭示另一個租戶索引中的文件 |
| PII 揭露 | 模型揭示個人可辨識資訊 | 從訓練資料輸出姓名、電子郵件或電話號碼 |
| 上下文視窗洩漏 | 一次對話的資訊洩漏到另一次 | 多租戶部署中共享上下文視窗 |
證據來源:提示詞/完成日誌、RAG 檢索日誌、嵌入查詢日誌、資料分類標籤。
關鍵指標:模型輸出含不應可讓請求使用者存取的資訊。
參見 資料外洩 IR 劇本 以取得回應程序。
類別 3:模型操縱
模型操縱事件涉及透過對權重、訓練資料或微調流程的攻擊改變模型行為。
| 子類別 | 描述 | 範例 |
|---|---|---|
| 訓練資料投毒 | 惡意資料注入訓練集 | 在微調資料集中插入後門觸發短語 |
| 微調攻擊 | 退化安全或插入後門的惡意微調 | 在特定觸發啟動有害行為的 LoRA 介面卡 |
| 後門插入 | 由特定觸發啟動的隱藏功能 | 模型在輸入含觸發詞時產生特定輸出(如「APPROVED」) |
| 安全退化 | 針對性降低安全行為 | 以不安全完成微調以侵蝕拒絕行為 |
| 能力操縱 | 為攻擊者利益修改模型能力 | 增強程式碼產生以產出惡意軟體模式 |
證據來源:模型權重校驗和、訓練資料來源、微調日誌、行為測試套件、介面卡檔案。
關鍵指標:模型行為以無法用正常更新解釋的方式偏離預期基準。
類別 4:供應鏈妥協
供應鏈事件針對 AI 系統所依賴的元件與相依項目,包括預訓練模型權重、分詞器、資料集與框架函式庫。
| 子類別 | 描述 | 範例 |
|---|---|---|
| 被妥協的模型權重 | 預訓練模型含隱藏功能 | 從 Hugging Face 下載的含後門模型 |
| 惡意分詞器 | 分詞器被修改以啟用攻擊 | 將常見詞映射到後門觸發符元的分詞器 |
| 被投毒的資料集 | 公開資料集含對抗性樣本 | 常見微調資料集含設計用於退化安全的資料 |
| 框架漏洞 | ML 框架函式庫含可利用臭蟲 | 模型載入程式碼中的 pickle 反序列化 RCE |
| 介面卡/外掛妥協 | 第三方介面卡或外掛引入漏洞 | 繞過特定主題安全的社群 LoRA 介面卡 |
證據來源:成品校驗和、下載來源、相依清單、框架漏洞資料庫、模型檔完整性日誌。
關鍵指標:第三方元件引入了內部開發成品中不存在的漏洞或行為變化。
參見 基礎設施與供應鏈 以取得相關攻擊技術。
類別 5:對抗性攻擊
對抗性攻擊透過精心製作的輸入利用模型的感知或推理,設計用於造成誤分類、錯誤推理或不安全行為。
| 子類別 | 描述 | 範例 |
|---|---|---|
| 對抗性文字 | 為造成誤分類或不安全輸出而製作的輸入 | 使安全分類器失效的基於梯度的符元替換 |
| 對抗性影像 | 欺騙多模態模型的修改影像 | 含模型可讀但人類看不見的嵌入文字的影像 |
| 間接提示詞注入 | 嵌入外部資料來源的惡意指令 | 含瀏覽代理所跟隨的隱藏指令的網頁 |
| 對抗性嵌入 | 操縱檢索行為的精心製作輸入 | 設計為被無關查詢檢索的文件 |
| 規避攻擊 | 設計用於繞過安全分類器的輸入 | 通過輸入過濾器但保留有害語意的符元操縱 |
證據來源:含原始位元組的輸入日誌、分類器信心分數、嵌入相似度日誌、檢索日誌、多模態輸入歸檔。
關鍵指標:攻擊依賴於模型感知與人類觀察者感知之間的差異。
類別 6:濫用事件
濫用事件涉及授權使用者以違反政策、法規或倫理指引的方式使用 AI 系統——不一定利用技術漏洞。
| 子類別 | 描述 | 範例 |
|---|---|---|
| 政策違規 | 使用者取得違反可接受使用政策的輸出 | 使用程式碼助理產生惡意軟體 |
| 法規違規 | AI 使用違反適用法規 | 在需要人類監督的情境中使用 AI 做自動化決策 |
| 能力濫用 | 利用合法功能達成有害目的 | 使用 AI 寫作助理產生針對性釣魚活動 |
| 自動化濫用 | 腳本或自動化利用 AI 能力 | 機器人農場使用 AI API 大規模產生不實資訊 |
| 內部人員濫用 | 授權人員濫用 AI 存取 | 員工使用內部 AI 工具存取其工作職能外的資料 |
證據來源:使用者身分與存取日誌、使用量指標、輸出內容分析、API 呼叫模式。
關鍵指標:AI 系統如設計運作,但使用者意圖或使用情境違反政策或法規。
多類別事件
許多真實世界事件同時跨越多個類別。使用越獄(類別 1)透過間接提示詞注入(類別 5)萃取訓練資料(類別 2)的攻擊者應被分類到全部三個類別。分類驅動回應程序,每個相關類別增加調查步驟。
分類決策樹
偵測到潛在 AI 事件時,使用此決策流程分類:
| 問題 | 若是 | 若否 |
|---|---|---|
| 模型是否產生違反其安全約束的內容? | 包含類別 1(越獄) | 繼續 |
| 模型是否揭示不應揭示的資訊? | 包含類別 2(資料洩漏) | 繼續 |
| 模型行為是否已從其既有基準改變? | 包含類別 3(操縱) | 繼續 |
| 事件是否源自第三方元件? | 包含類別 4(供應鏈) | 繼續 |
| 攻擊是否基於特別製作的感知輸入? | 包含類別 5(對抗性) | 繼續 |
| 授權使用者是否濫用系統的合法能力? | 包含類別 6(濫用) | 重新評估偵測訊號 |
相關主題
- 嚴重性框架 — 為分類事件評分嚴重性
- 分類程序 — 分類後的初步回應行動
- 升級路徑 — 何時及如何升級每個類別
- OWASP LLM 應用程式 Top 10 — 互補的漏洞分類
參考資料
- 「MITRE ATLAS: AI 系統對抗性威脅態勢」 - MITRE Corporation (2025) - ML 系統的全面攻擊分類法
- 「AI 事件資料庫」 - Partnership on AI (2025) - 為本分類法提供資訊的真實世界事件目錄
- 「OWASP LLM 應用程式 Top 10」 - OWASP Foundation (2025) - LLM 系統的漏洞分類
- 「NIST AI 100-2: 對抗性機器學習」 - NIST (2024) - AI 系統攻擊分類法
攻擊者在網頁中使用間接提示詞注入,使瀏覽代理揭示其系統提示詞。適用哪些事件類別?