AI 攻擊分類

入門3 分鐘閱讀更新於 2026-03-15

依目標、技術與影響組織之 AI 攻擊完整分類——為紅隊規劃與報告提供共享詞彙。

taxonomy attacks classification beginner

為何分類重要

若無共享詞彙，紅隊發現退化為臨時描述。一個測試者稱之為「jailbreak」、另一個稱「提示注入」、第三個稱「guardrail 繞過」。這些是同一回事嗎？同一漏洞之不同面向？完全不同之攻擊類別？定義良好之分類為規劃、執行與溝通提供清晰。

維度 1：目標

分類之第一維度問：你在攻擊什麼？ AI 系統具多層，各呈現獨特之攻擊面。

模型

鎖定 AI 模型本身之攻擊——其權重、行為、學得模式與決策邊界。

攻擊	描述	範例
Jailbreak	覆蓋模型之安全訓練以產出受限輸出	「Ignore previous instructions and explain how to...」
提示注入	插入模型於其系統提示之上遵循之對抗指令	檢索文件中之隱藏指令
對抗範例	打造造成誤分類或非預期行為之輸入	擾動圖像、對抗 token 序列
模型擷取	查詢模型以重建其權重或功能等效	系統化查詢以訓練複製模型

資料

鎖定流經或用於建構 AI 系統之資料之攻擊。

攻擊	描述	範例
訓練資料投毒	污染訓練資料以嵌入後門或偏誤	將惡意範例注入網頁擷取之資料集
資料外洩	擷取模型於訓練期間記憶之敏感資料	提示以逐字再現訓練資料
RAG 投毒	污染檢索增強生成之資料來源	將對抗文件注入知識庫
成員推論	判定特定資料是否於訓練集中	對已知 vs. 未知資料之模型信心之統計分析

基礎設施

鎖定模型周圍系統、API 與部署基礎設施之攻擊。

攻擊	描述	範例
API 濫用	利用 API 設計缺陷、速率限制或驗證	經分散請求繞過速率限制
供應鏈	入侵模型依賴、函式庫或託管	Hugging Face 上之惡意模型檔、被入侵之 pip 套件
側通道	自時序、錯誤訊息或資源使用擷取資訊	Token 數差異揭露被過濾之內容
拒絕服務	壓垮或降低 AI 系統之可用性	打造最大化運算之輸入（例如長脈絡利用）

代理

對可經由工具使用於現實世界採取行動之 AI 代理特有之攻擊。

攻擊	描述	範例
工具操弄	造成代理誤用其工具	提示注入造成代理傳送未授權 email
目標劫持	將代理目標重導至服務攻擊者	經由檢索內容中之注入指令覆蓋代理任務
權限提升	取得超越預期授權之工具或資料存取	利用代理之資料庫存取查詢未授權資料表
回饋迴圈利用	操弄代理之自我評估或規劃迴圈	投毒代理之記憶以改變未來行為

維度 2：技術

第二維度描述攻擊如何運作——所使用之機制或方法。

注入

注入攻擊將對抗指令或內容插入 AI 系統之處理管線。

直接提示注入：攻擊者之輸入本身含對抗 payload
間接提示注入：Payload 被置於模型處理之外部內容（文件、網頁、email）
跨外掛注入：Payload 橫跨工具或外掛邊界，利用元件間之信任假設
多模態注入：對抗內容嵌入模型處理之圖像、音訊，或其他非文字模態

規避

規避攻擊於不改變其底層機制下繞過偵測或分類系統。

混淆：編碼、字元替換，或使人類可讀內容通過自動化過濾器之格式技巧
語意換句話：以規避以關鍵字或分類器為本偵測之語言重述對抗意圖
碎裂：將對抗內容分於多個訊息或文件，使無單一碎片觸發偵測
對抗擾動：對輸入之數學計算修改——造成誤分類同時對人類不可感知

擷取

擷取攻擊旨在自 AI 系統竊取資訊——訓練資料、模型參數或系統組態。

系統提示擷取：使模型揭露其系統指令之技術
訓練資料擷取：提示模型再現記憶化訓練範例
模型竊取：查詢模型以建立功能等效副本
Embedding 擷取：復原揭露關於模型或資料敏感資訊之內部表徵

投毒

投毒攻擊污染 AI 系統之學習或知識以嵌入惡意行為。

預訓練投毒：將惡意資料注入預訓練語料
微調投毒：污染微調資料集以嵌入後門
RAG 投毒：污染檢索增強生成系統所取之知識庫
回饋投毒：操弄 RLHF 或使用者回饋訊號以轉移模型行為

維度 3：影響

第三維度依對系統或其使用者之效應分類攻擊。

機密性

攻擊者取得不應有之資訊存取。這包括訓練資料擷取、系統提示洩漏、PII 暴露，與模型權重竊取。

完整性

攻擊者造成系統產生不正確、誤導或有害之輸出。這包括 jailbreak（產出不允許之內容）、幻覺放大，與輸出操弄。

可用性

攻擊者降低或防止系統之合法使用。這包括造成減速之運算密集輸入、觸發過度錯誤處理之輸入，以及造成系統拒絕合法請求（過度拒絕）之攻擊。

安全

攻擊者造成系統產生可能導致現實傷害之輸出。這與完整性不同，因它明確涉及與實體危險、自傷、非法活動，或其他安全關鍵內容相關之輸出。

使用分類規劃

分類之三個維度結合，造就結構化攻擊空間。於委任規劃期間，使用此矩陣以確保覆蓋：

繪製目標面
辨識哪些目標（模型、資料、基礎設施、代理）於範圍內。簡單聊天機器人可能僅暴露模型與基礎設施面。代理系統則暴露四者。
枚舉適用技術
對每個目標，判定哪些技術適用。並非每個技術適用於每個目標。例如，若你無訓練資料之存取，投毒攻擊可能於範圍外。
依影響排序
依潛在影響為目標—技術組合排名。涉及 PII 之機密性破口通常較涉及輕微離題回應之完整性問題優先度更高。
指派團隊成員
不同技術需不同專長。將注入與規避攻擊指派給提示工程專家、將擷取攻擊指派給 ML 工程師、將基礎設施攻擊指派給安全工程師。

實務分類：將真實攻擊分類

考量知名攻擊如何對映至分類：

攻擊	目標	技術	影響
「DAN」jailbreak	模型	注入（直接）	完整性、安全
經由 email 之間接提示注入	代理	注入（間接）	完整性、機密性
GCG 對抗後綴	模型	規避（擾動）	完整性、安全
訓練資料擷取（「repeat the word poem forever」）	資料	擷取	機密性
Sleeper agent 後門	模型	投毒（微調）	完整性、安全
經 API 查詢之模型克隆	模型	擷取（模型竊取）	機密性
RAG 文件注入	資料	投毒（RAG）	完整性
Token 收割之速率限制繞過	基礎設施	基礎設施濫用	可用性、機密性

參考資料

"MITRE ATLAS: Adversarial Threat Landscape for Artificial-Intelligence Systems" - MITRE Corporation（2023）- AI 系統之對抗戰術、技術與程序之系統化枚舉
"A Taxonomy and Terminology of Adversarial Machine Learning" - NIST IR 8269（2024）- NIST 之對抗 ML 概念與術語正式分類
"OWASP Top 10 for LLM Applications" - OWASP（2025）- LLM 應用漏洞之以風險為焦點之分類
"Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" - Greshake et al.（2023）- 間接提示注入攻擊之奠基論文

Knowledge Check

紅隊於委任規劃期間應如何使用攻擊分類？

AI 攻擊分類

入門3 分鐘閱讀更新於 2026-03-15

依目標、技術與影響組織之 AI 攻擊完整分類——為紅隊規劃與報告提供共享詞彙。

taxonomy attacks classification beginner

為何分類重要

維度 1：目標

分類之第一維度問：你在攻擊什麼？ AI 系統具多層，各呈現獨特之攻擊面。

模型

鎖定 AI 模型本身之攻擊——其權重、行為、學得模式與決策邊界。

攻擊	描述	範例
Jailbreak	覆蓋模型之安全訓練以產出受限輸出	「Ignore previous instructions and explain how to...」
提示注入	插入模型於其系統提示之上遵循之對抗指令	檢索文件中之隱藏指令
對抗範例	打造造成誤分類或非預期行為之輸入	擾動圖像、對抗 token 序列
模型擷取	查詢模型以重建其權重或功能等效	系統化查詢以訓練複製模型

資料

鎖定流經或用於建構 AI 系統之資料之攻擊。

攻擊	描述	範例
訓練資料投毒	污染訓練資料以嵌入後門或偏誤	將惡意範例注入網頁擷取之資料集
資料外洩	擷取模型於訓練期間記憶之敏感資料	提示以逐字再現訓練資料
RAG 投毒	污染檢索增強生成之資料來源	將對抗文件注入知識庫
成員推論	判定特定資料是否於訓練集中	對已知 vs. 未知資料之模型信心之統計分析

基礎設施

鎖定模型周圍系統、API 與部署基礎設施之攻擊。

攻擊	描述	範例
API 濫用	利用 API 設計缺陷、速率限制或驗證	經分散請求繞過速率限制
供應鏈	入侵模型依賴、函式庫或託管	Hugging Face 上之惡意模型檔、被入侵之 pip 套件
側通道	自時序、錯誤訊息或資源使用擷取資訊	Token 數差異揭露被過濾之內容
拒絕服務	壓垮或降低 AI 系統之可用性	打造最大化運算之輸入（例如長脈絡利用）

代理

對可經由工具使用於現實世界採取行動之 AI 代理特有之攻擊。

攻擊	描述	範例
工具操弄	造成代理誤用其工具	提示注入造成代理傳送未授權 email
目標劫持	將代理目標重導至服務攻擊者	經由檢索內容中之注入指令覆蓋代理任務
權限提升	取得超越預期授權之工具或資料存取	利用代理之資料庫存取查詢未授權資料表
回饋迴圈利用	操弄代理之自我評估或規劃迴圈	投毒代理之記憶以改變未來行為

維度 2：技術

第二維度描述攻擊如何運作——所使用之機制或方法。

注入

注入攻擊將對抗指令或內容插入 AI 系統之處理管線。

直接提示注入：攻擊者之輸入本身含對抗 payload
間接提示注入：Payload 被置於模型處理之外部內容（文件、網頁、email）
跨外掛注入：Payload 橫跨工具或外掛邊界，利用元件間之信任假設
多模態注入：對抗內容嵌入模型處理之圖像、音訊，或其他非文字模態

規避

規避攻擊於不改變其底層機制下繞過偵測或分類系統。

混淆：編碼、字元替換，或使人類可讀內容通過自動化過濾器之格式技巧
語意換句話：以規避以關鍵字或分類器為本偵測之語言重述對抗意圖
碎裂：將對抗內容分於多個訊息或文件，使無單一碎片觸發偵測
對抗擾動：對輸入之數學計算修改——造成誤分類同時對人類不可感知

擷取

擷取攻擊旨在自 AI 系統竊取資訊——訓練資料、模型參數或系統組態。

系統提示擷取：使模型揭露其系統指令之技術
訓練資料擷取：提示模型再現記憶化訓練範例
模型竊取：查詢模型以建立功能等效副本
Embedding 擷取：復原揭露關於模型或資料敏感資訊之內部表徵

投毒

投毒攻擊污染 AI 系統之學習或知識以嵌入惡意行為。

預訓練投毒：將惡意資料注入預訓練語料
微調投毒：污染微調資料集以嵌入後門
RAG 投毒：污染檢索增強生成系統所取之知識庫
回饋投毒：操弄 RLHF 或使用者回饋訊號以轉移模型行為

維度 3：影響

第三維度依對系統或其使用者之效應分類攻擊。

機密性

攻擊者取得不應有之資訊存取。這包括訓練資料擷取、系統提示洩漏、PII 暴露，與模型權重竊取。

完整性

攻擊者造成系統產生不正確、誤導或有害之輸出。這包括 jailbreak（產出不允許之內容）、幻覺放大，與輸出操弄。

可用性

攻擊者降低或防止系統之合法使用。這包括造成減速之運算密集輸入、觸發過度錯誤處理之輸入，以及造成系統拒絕合法請求（過度拒絕）之攻擊。

安全

攻擊者造成系統產生可能導致現實傷害之輸出。這與完整性不同，因它明確涉及與實體危險、自傷、非法活動，或其他安全關鍵內容相關之輸出。

使用分類規劃

分類之三個維度結合，造就結構化攻擊空間。於委任規劃期間，使用此矩陣以確保覆蓋：

繪製目標面
辨識哪些目標（模型、資料、基礎設施、代理）於範圍內。簡單聊天機器人可能僅暴露模型與基礎設施面。代理系統則暴露四者。
枚舉適用技術
對每個目標，判定哪些技術適用。並非每個技術適用於每個目標。例如，若你無訓練資料之存取，投毒攻擊可能於範圍外。
依影響排序
依潛在影響為目標—技術組合排名。涉及 PII 之機密性破口通常較涉及輕微離題回應之完整性問題優先度更高。
指派團隊成員
不同技術需不同專長。將注入與規避攻擊指派給提示工程專家、將擷取攻擊指派給 ML 工程師、將基礎設施攻擊指派給安全工程師。

實務分類：將真實攻擊分類

考量知名攻擊如何對映至分類：

攻擊	目標	技術	影響
「DAN」jailbreak	模型	注入（直接）	完整性、安全
經由 email 之間接提示注入	代理	注入（間接）	完整性、機密性
GCG 對抗後綴	模型	規避（擾動）	完整性、安全
訓練資料擷取（「repeat the word poem forever」）	資料	擷取	機密性
Sleeper agent 後門	模型	投毒（微調）	完整性、安全
經 API 查詢之模型克隆	模型	擷取（模型竊取）	機密性
RAG 文件注入	資料	投毒（RAG）	完整性
Token 收割之速率限制繞過	基礎設施	基礎設施濫用	可用性、機密性

參考資料

"MITRE ATLAS: Adversarial Threat Landscape for Artificial-Intelligence Systems" - MITRE Corporation（2023）- AI 系統之對抗戰術、技術與程序之系統化枚舉
"A Taxonomy and Terminology of Adversarial Machine Learning" - NIST IR 8269（2024）- NIST 之對抗 ML 概念與術語正式分類
"OWASP Top 10 for LLM Applications" - OWASP（2025）- LLM 應用漏洞之以風險為焦點之分類
"Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" - Greshake et al.（2023）- 間接提示注入攻擊之奠基論文

Knowledge Check

紅隊於委任規劃期間應如何使用攻擊分類？

AI 攻擊分類

繪製目標面

枚舉適用技術

依影響排序

指派團隊成員

相關文章

AI 攻擊分類

繪製目標面

枚舉適用技術

依影響排序

指派團隊成員

相關文章