AI 攻擊分類概覽
入門2 分鐘閱讀更新於 2026-03-20
AI 攻擊分類的完整概覽,涵蓋所有主要攻擊類別及其關係。
概覽
AI 攻擊分類涵蓋所有主要攻擊類別及其關係的完整概覽。
本主題代表 AI 安全中的關鍵領域,已受大量研究與真實世界利用關注。理解此處涵蓋的概念、技術與防禦措施,對任何從事 AI 安全工作的人(不論攻擊或防禦角色)皆屬必要。
Zou et al. 2023 —— "Universal and Transferable Adversarial Attacks on Aligned Language Models" 為本文所探討的漏洞類別提供了基礎背景。
核心概念
AI 攻擊可沿多個軸向分類:
依攻擊階段
- 訓練時攻擊:鎖定訓練流程(資料投毒、後門植入、對抗性微調)
- 部署時攻擊:鎖定已部署模型(提示詞注入、越獄、模型萃取)
- 推論時攻擊:鎖定執行中互動(快取投毒、工作階段劫持)
依目標元件
- 模型:攻擊模型行為(越獄、對齊繞過)
- 提示詞 / 上下文:攻擊輸入處理(注入、編碼)
- 工具 / 代理:攻擊代理能力(函式呼叫濫用、沙箱逃逸)
- 資料 / RAG:攻擊資料管線(投毒、間接注入)
- 基礎設施:攻擊部署堆疊(API、快取、工作階段)
依攻擊者意圖
- 資訊洩漏:系統提示詞萃取、訓練資料萃取
- 行為操控:越獄、政策違反
- 工具濫用:使代理執行未授權動作
- 阻斷服務:耗盡資源、使系統無法回應
攻擊類別間的關係
攻擊常結合:
- 提示詞注入 + 工具存取 = 代理利用(單純注入效果被工具存取放大)
- 間接注入 + RAG = RAG 投毒(於索引文件中嵌入指令)
- 越獄 + 社交工程 = 多向量安全繞過
- 對抗性後綴 + 編碼 = 分層規避
攻擊面分析
| 攻擊類別 | 範例 | 影響 | 偵測難度 |
|---|---|---|---|
| 提示詞注入 | 指令覆寫、分隔符跳脫 | 中-高 | 中 |
| 越獄 | DAN、漸強、虛構框架 | 中-高 | 高 |
| 資料投毒 | RAG 投毒、訓練資料攻擊 | 危急 | 極高 |
| 代理利用 | 工具濫用、沙箱逃逸 | 危急 | 中-高 |
| 模型萃取 | API 查詢重建 | 高 | 低 |
| 推論時攻擊 | 快取投毒、工作階段劫持 | 中-高 | 高 |
與既有框架對應
| 本分類 | OWASP LLM Top 10 | MITRE ATLAS |
|---|---|---|
| 提示詞注入 | LLM01 | AML.T0051 |
| 資料投毒 | LLM04 Data Poisoning | AML.T0020 |
| 越獄 | LLM02 Sensitive Output | AML.T0054 |
| 模型萃取 | LLM06 Sensitive Info Disclosure | AML.T0024 |
| 代理過度代理 | LLM08 Excessive Agency | AML.T0055 |
| 阻斷服務 | LLM10 Unbounded Consumption | AML.T0029 |
防禦策略(依攻擊類別)
- 提示詞注入:輸入過濾、指令階層訓練、輸出監控
- 越獄:對抗訓練、憲法式 AI、拒絕強化
- 資料投毒:資料來源驗證、訓練資料清理、異常偵測
- 代理利用:最小權限、沙箱、人類介入
- 模型萃取:速率限制、查詢異常偵測
- 推論時:快取隔離、工作階段管理、速率限制
紅隊演練順序
對新目標的典型系統化評估:
- 偵察:辨識使用的模型、防禦、工具
- 系統提示詞萃取:建立脈絡
- 基本注入:測試基線安全
- 越獄測試:評估對齊強度
- 代理利用(若適用):測試工具安全
- 資料管線測試(若適用):測試 RAG/訓練管線
- 推論時:測試快取、工作階段、速率限制
相關主題
參考文獻
- OWASP (2025). OWASP Top 10 for LLM Applications
- MITRE ATLAS (2024). Adversarial Threat Landscape for AI Systems
- Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Knowledge Check
為何 AI 攻擊分類對紅隊演練至關重要?