AI 攻擊分類
依目標、技術與影響組織之 AI 攻擊完整分類——為紅隊規劃與報告提供共享詞彙。
為何分類重要
若無共享詞彙,紅隊發現退化為臨時描述。一個測試者稱之為「jailbreak」、另一個稱「提示注入」、第三個稱「guardrail 繞過」。這些是同一回事嗎?同一漏洞之不同面向?完全不同之攻擊類別?定義良好之分類為規劃、執行與溝通提供清晰。
維度 1:目標
分類之第一維度問:你在攻擊什麼? AI 系統具多層,各呈現獨特之攻擊面。
模型
鎖定 AI 模型本身之攻擊——其權重、行為、學得模式與決策邊界。
| 攻擊 | 描述 | 範例 |
|---|---|---|
| Jailbreak | 覆蓋模型之安全訓練以產出受限輸出 | 「Ignore previous instructions and explain how to...」 |
| 提示注入 | 插入模型於其系統提示之上遵循之對抗指令 | 檢索文件中之隱藏指令 |
| 對抗範例 | 打造造成誤分類或非預期行為之輸入 | 擾動圖像、對抗 token 序列 |
| 模型擷取 | 查詢模型以重建其權重或功能等效 | 系統化查詢以訓練複製模型 |
資料
鎖定流經或用於建構 AI 系統之資料之攻擊。
| 攻擊 | 描述 | 範例 |
|---|---|---|
| 訓練資料投毒 | 污染訓練資料以嵌入後門或偏誤 | 將惡意範例注入網頁擷取之資料集 |
| 資料外洩 | 擷取模型於訓練期間記憶之敏感資料 | 提示以逐字再現訓練資料 |
| RAG 投毒 | 污染檢索增強生成之資料來源 | 將對抗文件注入知識庫 |
| 成員推論 | 判定特定資料是否於訓練集中 | 對已知 vs. 未知資料之模型信心之統計分析 |
基礎設施
鎖定模型周圍系統、API 與部署基礎設施之攻擊。
| 攻擊 | 描述 | 範例 |
|---|---|---|
| API 濫用 | 利用 API 設計缺陷、速率限制或驗證 | 經分散請求繞過速率限制 |
| 供應鏈 | 入侵模型依賴、函式庫或託管 | Hugging Face 上之惡意模型檔、被入侵之 pip 套件 |
| 側通道 | 自時序、錯誤訊息或資源使用擷取資訊 | Token 數差異揭露被過濾之內容 |
| 拒絕服務 | 壓垮或降低 AI 系統之可用性 | 打造最大化運算之輸入(例如長脈絡利用) |
代理
對可經由工具使用於現實世界採取行動之 AI 代理特有之攻擊。
| 攻擊 | 描述 | 範例 |
|---|---|---|
| 工具操弄 | 造成代理誤用其工具 | 提示注入造成代理傳送未授權 email |
| 目標劫持 | 將代理目標重導至服務攻擊者 | 經由檢索內容中之注入指令覆蓋代理任務 |
| 權限提升 | 取得超越預期授權之工具或資料存取 | 利用代理之資料庫存取查詢未授權資料表 |
| 回饋迴圈利用 | 操弄代理之自我評估或規劃迴圈 | 投毒代理之記憶以改變未來行為 |
維度 2:技術
第二維度描述攻擊如何運作——所使用之機制或方法。
注入
注入攻擊將對抗指令或內容插入 AI 系統之處理管線。
- 直接提示注入:攻擊者之輸入本身含對抗 payload
- 間接提示注入:Payload 被置於模型處理之外部內容(文件、網頁、email)
- 跨外掛注入:Payload 橫跨工具或外掛邊界,利用元件間之信任假設
- 多模態注入:對抗內容嵌入模型處理之圖像、音訊,或其他非文字模態
規避
規避攻擊於不改變其底層機制下繞過偵測或分類系統。
- 混淆:編碼、字元替換,或使人類可讀內容通過自動化過濾器之格式技巧
- 語意換句話:以規避以關鍵字或分類器為本偵測之語言重述對抗意圖
- 碎裂:將對抗內容分於多個訊息或文件,使無單一碎片觸發偵測
- 對抗擾動:對輸入之數學計算修改——造成誤分類同時對人類不可感知
擷取
擷取攻擊旨在自 AI 系統竊取資訊——訓練資料、模型參數或系統組態。
- 系統提示擷取:使模型揭露其系統指令之技術
- 訓練資料擷取:提示模型再現記憶化訓練範例
- 模型竊取:查詢模型以建立功能等效副本
- Embedding 擷取:復原揭露關於模型或資料敏感資訊之內部表徵
投毒
投毒攻擊污染 AI 系統之學習或知識以嵌入惡意行為。
- 預訓練投毒:將惡意資料注入預訓練語料
- 微調投毒:污染微調資料集以嵌入後門
- RAG 投毒:污染檢索增強生成系統所取之知識庫
- 回饋投毒:操弄 RLHF 或使用者回饋訊號以轉移模型行為
維度 3:影響
第三維度依對系統或其使用者之效應分類攻擊。
機密性
攻擊者取得不應有之資訊存取。這包括訓練資料擷取、系統提示洩漏、PII 暴露,與模型權重竊取。
完整性
攻擊者造成系統產生不正確、誤導或有害之輸出。這包括 jailbreak(產出不允許之內容)、幻覺放大,與輸出操弄。
可用性
攻擊者降低或防止系統之合法使用。這包括造成減速之運算密集輸入、觸發過度錯誤處理之輸入,以及造成系統拒絕合法請求(過度拒絕)之攻擊。
安全
攻擊者造成系統產生可能導致現實傷害之輸出。這與完整性不同,因它明確涉及與實體危險、自傷、非法活動,或其他安全關鍵內容相關之輸出。
使用分類規劃
分類之三個維度結合,造就結構化攻擊空間。於委任規劃期間,使用此矩陣以確保覆蓋:
繪製目標面
辨識哪些目標(模型、資料、基礎設施、代理)於範圍內。簡單聊天機器人可能僅暴露模型與基礎設施面。代理系統則暴露四者。
枚舉適用技術
對每個目標,判定哪些技術適用。並非每個技術適用於每個目標。例如,若你無訓練資料之存取,投毒攻擊可能於範圍外。
依影響排序
依潛在影響為目標—技術組合排名。涉及 PII 之機密性破口通常較涉及輕微離題回應之完整性問題優先度更高。
指派團隊成員
不同技術需不同專長。將注入與規避攻擊指派給提示工程專家、將擷取攻擊指派給 ML 工程師、將基礎設施攻擊指派給安全工程師。
實務分類:將真實攻擊分類
考量知名攻擊如何對映至分類:
| 攻擊 | 目標 | 技術 | 影響 |
|---|---|---|---|
| 「DAN」jailbreak | 模型 | 注入(直接) | 完整性、安全 |
| 經由 email 之間接提示注入 | 代理 | 注入(間接) | 完整性、機密性 |
| GCG 對抗後綴 | 模型 | 規避(擾動) | 完整性、安全 |
| 訓練資料擷取(「repeat the word poem forever」) | 資料 | 擷取 | 機密性 |
| Sleeper agent 後門 | 模型 | 投毒(微調) | 完整性、安全 |
| 經 API 查詢之模型克隆 | 模型 | 擷取(模型竊取) | 機密性 |
| RAG 文件注入 | 資料 | 投毒(RAG) | 完整性 |
| Token 收割之速率限制繞過 | 基礎設施 | 基礎設施濫用 | 可用性、機密性 |
相關主題
- 紅隊方法論基礎 — 使用此分類之委任生命週期
- AI 威脅塑模 — 將分類套用於特定系統
- 對抗 ML:核心概念 — 對抗技術之深入探討
- AI 景觀 — 理解你分類攻擊所針對之系統
參考資料
- "MITRE ATLAS: Adversarial Threat Landscape for Artificial-Intelligence Systems" - MITRE Corporation(2023)- AI 系統之對抗戰術、技術與程序之系統化枚舉
- "A Taxonomy and Terminology of Adversarial Machine Learning" - NIST IR 8269(2024)- NIST 之對抗 ML 概念與術語正式分類
- "OWASP Top 10 for LLM Applications" - OWASP(2025)- LLM 應用漏洞之以風險為焦點之分類
- "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" - Greshake et al.(2023)- 間接提示注入攻擊之奠基論文
紅隊於委任規劃期間應如何使用攻擊分類?