攻擊類別	範例	影響	偵測難度
提示詞注入	指令覆寫、分隔符跳脫	中-高	中
越獄	DAN、漸強、虛構框架	中-高	高
資料投毒	RAG 投毒、訓練資料攻擊	危急	極高
代理利用	工具濫用、沙箱逃逸	危急	中-高
模型萃取	API 查詢重建	高	低
推論時攻擊	快取投毒、工作階段劫持	中-高	高

與既有框架對應

本分類	OWASP LLM Top 10	MITRE ATLAS
提示詞注入	LLM01	AML.T0051
資料投毒	LLM04 Data Poisoning	AML.T0020
越獄	LLM02 Sensitive Output	AML.T0054
模型萃取	LLM06 Sensitive Info Disclosure	AML.T0024
代理過度代理	LLM08 Excessive Agency	AML.T0055
阻斷服務	LLM10 Unbounded Consumption	AML.T0029

防禦策略（依攻擊類別）

提示詞注入：輸入過濾、指令階層訓練、輸出監控
越獄：對抗訓練、憲法式 AI、拒絕強化
資料投毒：資料來源驗證、訓練資料清理、異常偵測
代理利用：最小權限、沙箱、人類介入
模型萃取：速率限制、查詢異常偵測
推論時：快取隔離、工作階段管理、速率限制

紅隊演練順序

對新目標的典型系統化評估：

偵察：辨識使用的模型、防禦、工具
系統提示詞萃取：建立脈絡
基本注入：測試基線安全
越獄測試：評估對齊強度
代理利用（若適用）：測試工具安全
資料管線測試（若適用）：測試 RAG/訓練管線
推論時：測試快取、工作階段、速率限制

參考文獻

OWASP (2025). OWASP Top 10 for LLM Applications
MITRE ATLAS (2024). Adversarial Threat Landscape for AI Systems
Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"

Knowledge Check

為何 AI 攻擊分類對紅隊演練至關重要？

AI 攻擊分類概覽

入門2 分鐘閱讀更新於 2026-03-20

AI 攻擊分類的完整概覽，涵蓋所有主要攻擊類別及其關係。

taxonomy overview foundations attack

概覽

AI 攻擊分類涵蓋所有主要攻擊類別及其關係的完整概覽。

Zou et al. 2023 —— "Universal and Transferable Adversarial Attacks on Aligned Language Models" 為本文所探討的漏洞類別提供了基礎背景。

核心概念

AI 攻擊可沿多個軸向分類：

依攻擊階段

訓練時攻擊：鎖定訓練流程（資料投毒、後門植入、對抗性微調）
部署時攻擊：鎖定已部署模型（提示詞注入、越獄、模型萃取）
推論時攻擊：鎖定執行中互動（快取投毒、工作階段劫持）

依目標元件

模型：攻擊模型行為（越獄、對齊繞過）
提示詞 / 上下文：攻擊輸入處理（注入、編碼）
工具 / 代理：攻擊代理能力（函式呼叫濫用、沙箱逃逸）
資料 / RAG：攻擊資料管線（投毒、間接注入）
基礎設施：攻擊部署堆疊（API、快取、工作階段）

依攻擊者意圖

資訊洩漏：系統提示詞萃取、訓練資料萃取
行為操控：越獄、政策違反
工具濫用：使代理執行未授權動作
阻斷服務：耗盡資源、使系統無法回應

攻擊類別間的關係

攻擊常結合：

提示詞注入 + 工具存取 = 代理利用（單純注入效果被工具存取放大）
間接注入 + RAG = RAG 投毒（於索引文件中嵌入指令）
越獄 + 社交工程 = 多向量安全繞過
對抗性後綴 + 編碼 = 分層規避

攻擊面分析

攻擊類別	範例	影響	偵測難度
提示詞注入	指令覆寫、分隔符跳脫	中-高	中
越獄	DAN、漸強、虛構框架	中-高	高
資料投毒	RAG 投毒、訓練資料攻擊	危急	極高
代理利用	工具濫用、沙箱逃逸	危急	中-高
模型萃取	API 查詢重建	高	低
推論時攻擊	快取投毒、工作階段劫持	中-高	高

與既有框架對應

本分類	OWASP LLM Top 10	MITRE ATLAS
提示詞注入	LLM01	AML.T0051
資料投毒	LLM04 Data Poisoning	AML.T0020
越獄	LLM02 Sensitive Output	AML.T0054
模型萃取	LLM06 Sensitive Info Disclosure	AML.T0024
代理過度代理	LLM08 Excessive Agency	AML.T0055
阻斷服務	LLM10 Unbounded Consumption	AML.T0029

防禦策略（依攻擊類別）

提示詞注入：輸入過濾、指令階層訓練、輸出監控
越獄：對抗訓練、憲法式 AI、拒絕強化
資料投毒：資料來源驗證、訓練資料清理、異常偵測
代理利用：最小權限、沙箱、人類介入
模型萃取：速率限制、查詢異常偵測
推論時：快取隔離、工作階段管理、速率限制

紅隊演練順序

對新目標的典型系統化評估：

偵察：辨識使用的模型、防禦、工具
系統提示詞萃取：建立脈絡
基本注入：測試基線安全
越獄測試：評估對齊強度
代理利用（若適用）：測試工具安全
資料管線測試（若適用）：測試 RAG/訓練管線
推論時：測試快取、工作階段、速率限制

參考文獻

OWASP (2025). OWASP Top 10 for LLM Applications
MITRE ATLAS (2024). Adversarial Threat Landscape for AI Systems
Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"

Knowledge Check

為何 AI 攻擊分類對紅隊演練至關重要？

AI 攻擊分類概覽

概覽

核心概念

依攻擊階段

依目標元件

依攻擊者意圖

攻擊類別間的關係

攻擊面分析

與既有框架對應

防禦策略（依攻擊類別）

紅隊演練順序

相關主題

參考文獻

AI 攻擊分類概覽

概覽

核心概念

依攻擊階段

依目標元件

依攻擊者意圖

攻擊類別間的關係

攻擊面分析

與既有框架對應

防禦策略（依攻擊類別）

紅隊演練順序

相關主題

參考文獻

AI 攻擊分類概覽

相關文章

AI 攻擊分類概覽

相關文章