攻擊分類概覽

入門2 分鐘閱讀更新於 2026-03-15

AI 攻擊分類的完整概覽，從提示詞注入到模型盜竊，依攻擊者目標與所需存取組織。

foundations attack-taxonomy categorization red-teaming

概覽

完整的 AI 攻擊分類為紅隊演練、防禦規劃與風險評估提供結構化框架。本頁依攻擊者目標（他們想達成什麼）與所需存取層級（他們需要什麼權限）組織攻擊。

核心分類軸

軸 1：攻擊者目標

資訊揭露：萃取系統提示詞、訓練資料、使用者資料
行為改變：越獄、政策違反、不期望的回應
未授權行動：工具濫用、外洩、權限提升
阻斷服務：資源耗盡、成本攻擊、可用性影響
資產盜竊：模型萃取、IP 盜竊

軸 2：所需存取層級

黑箱：僅 API 存取（多數真實世界攻擊者）
灰箱：有限洞察（已知架構、部分文件）
白箱：完整權重存取（開源模型或內部人員）

軸 3：攻擊點

輸入：使用者訊息、RAG 文件、工具輸出
模型：對齊、權重、內部狀態
輸出：回應格式、內容、工具呼叫
基礎設施：API、快取、工作階段、工具

攻擊類別與常見技術

類別	常見技術	所需存取	典型影響
提示詞注入	直接覆寫、分隔符跳脫、格式模仿	黑箱	中-高
越獄	DAN、漸強、角色扮演、GCG 後綴	黑箱	高
間接注入	RAG 投毒、網頁隱藏指令、工具輸出投毒	黑箱	高
資料萃取	訓練資料重現、系統提示詞萃取	黑箱	中-高
模型萃取	API 查詢重建、行為複製	黑箱	高
對抗性擾動	GCG 後綴、字元級攻擊	灰/白箱	高
代理利用	工具濫用、沙箱逃逸、權限提升	黑箱	危急
訓練時攻擊	資料投毒、後門植入、反學習操控	白箱	危急
阻斷服務	上下文溢位、資源耗盡	黑箱	中

攻擊鏈範例

實際攻擊常鏈結多類別：

偵察 → 注入 → 代理濫用：先萃取系統提示詞、再打造針對防禦的注入、最後利用被劫持的代理執行動作
RAG 投毒 → 間接注入 → 資料外洩：植入被投毒文件、觸發間接注入、使用工具外洩資料
越獄 → 資料收割：繞過安全訓練、請求敏感訓練資料

紅隊演練優先排序

依攻擊者可能性與影響評估：

類別	可能性	影響	優先順序
提示詞注入	極高	中-高	高
間接注入（RAG）	高	高	高
代理利用	中	危急	高
越獄	高	中-高	中-高
系統提示詞萃取	極高	中	中-高
訓練時攻擊	低	危急	中（取決於威脅模型）
模型萃取	中	高	中

對應至 OWASP LLM Top 10

本分類	OWASP LLM Top 10 2025
提示詞注入	LLM01 Prompt Injection
敏感資訊揭露	LLM06 Sensitive Information Disclosure
訓練資料攻擊	LLM04 Data & Model Poisoning
模型萃取	LLM05 Supply Chain
代理過度代理	LLM08 Excessive Agency
阻斷服務	LLM10 Unbounded Consumption

參考文獻

OWASP (2025). OWASP Top 10 for LLM Applications
MITRE ATLAS (2024). Adversarial Threat Landscape for AI Systems

Knowledge Check

依本分類，「利用被投毒 RAG 文件劫持代理以執行未授權工具呼叫」是什麼樣的攻擊鏈？

攻擊分類概覽

入門2 分鐘閱讀更新於 2026-03-15

AI 攻擊分類的完整概覽，從提示詞注入到模型盜竊，依攻擊者目標與所需存取組織。

foundations attack-taxonomy categorization red-teaming

概覽

核心分類軸

軸 1：攻擊者目標

資訊揭露：萃取系統提示詞、訓練資料、使用者資料
行為改變：越獄、政策違反、不期望的回應
未授權行動：工具濫用、外洩、權限提升
阻斷服務：資源耗盡、成本攻擊、可用性影響
資產盜竊：模型萃取、IP 盜竊

軸 2：所需存取層級

黑箱：僅 API 存取（多數真實世界攻擊者）
灰箱：有限洞察（已知架構、部分文件）
白箱：完整權重存取（開源模型或內部人員）

軸 3：攻擊點

輸入：使用者訊息、RAG 文件、工具輸出
模型：對齊、權重、內部狀態
輸出：回應格式、內容、工具呼叫
基礎設施：API、快取、工作階段、工具

攻擊類別與常見技術

類別	常見技術	所需存取	典型影響
提示詞注入	直接覆寫、分隔符跳脫、格式模仿	黑箱	中-高
越獄	DAN、漸強、角色扮演、GCG 後綴	黑箱	高
間接注入	RAG 投毒、網頁隱藏指令、工具輸出投毒	黑箱	高
資料萃取	訓練資料重現、系統提示詞萃取	黑箱	中-高
模型萃取	API 查詢重建、行為複製	黑箱	高
對抗性擾動	GCG 後綴、字元級攻擊	灰/白箱	高
代理利用	工具濫用、沙箱逃逸、權限提升	黑箱	危急
訓練時攻擊	資料投毒、後門植入、反學習操控	白箱	危急
阻斷服務	上下文溢位、資源耗盡	黑箱	中

攻擊鏈範例

實際攻擊常鏈結多類別：

偵察 → 注入 → 代理濫用：先萃取系統提示詞、再打造針對防禦的注入、最後利用被劫持的代理執行動作
RAG 投毒 → 間接注入 → 資料外洩：植入被投毒文件、觸發間接注入、使用工具外洩資料
越獄 → 資料收割：繞過安全訓練、請求敏感訓練資料

紅隊演練優先排序

依攻擊者可能性與影響評估：

類別	可能性	影響	優先順序
提示詞注入	極高	中-高	高
間接注入（RAG）	高	高	高
代理利用	中	危急	高
越獄	高	中-高	中-高
系統提示詞萃取	極高	中	中-高
訓練時攻擊	低	危急	中（取決於威脅模型）
模型萃取	中	高	中

對應至 OWASP LLM Top 10

本分類	OWASP LLM Top 10 2025
提示詞注入	LLM01 Prompt Injection
敏感資訊揭露	LLM06 Sensitive Information Disclosure
訓練資料攻擊	LLM04 Data & Model Poisoning
模型萃取	LLM05 Supply Chain
代理過度代理	LLM08 Excessive Agency
阻斷服務	LLM10 Unbounded Consumption

參考文獻

OWASP (2025). OWASP Top 10 for LLM Applications
MITRE ATLAS (2024). Adversarial Threat Landscape for AI Systems

Knowledge Check

依本分類，「利用被投毒 RAG 文件劫持代理以執行未授權工具呼叫」是什麼樣的攻擊鏈？

攻擊分類概覽

概覽

核心分類軸

軸 1：攻擊者目標

軸 2：所需存取層級

軸 3：攻擊點

攻擊類別與常見技術

攻擊鏈範例

紅隊演練優先排序

對應至 OWASP LLM Top 10

相關主題

參考文獻

攻擊分類概覽

概覽

核心分類軸

軸 1：攻擊者目標

軸 2：所需存取層級

軸 3：攻擊點

攻擊類別與常見技術

攻擊鏈範例

紅隊演練優先排序

對應至 OWASP LLM Top 10

相關主題

參考文獻

攻擊分類概覽

相關文章

攻擊分類概覽

相關文章