AI 特有威脅建模(Tradecraft)
專家4 分鐘閱讀更新於 2026-03-11
將 ATLAS、STRIDE 與攻擊樹方法論套用於 AI 系統。代理式架構的信任邊界分析、資料流分析,以及 MCP 威脅建模。
AI 特有威脅建模
傳統威脅建模框架為一般軟體而設計。AI 系統引入新穎的威脅類別:對抗輸入、模型操弄、訓練資料攻擊,以及代理式工具使用的湧現風險。本頁說明如何將 STRIDE 與 ATLAS 套用於 AI、為 LLM 應用建立攻擊樹,以及分析代理式與 MCP 架構中的信任邊界。
MITRE ATLAS 框架
ATLAS提供 AI 特有攻擊技術的標準分類。
ATLAS 戰術對應紅隊階段
| ATLAS 戰術 | 紅隊階段 | 主要技術 |
|---|---|---|
| Reconnaissance | 範疇界定與偵察 | 模型指紋、API 探測、訓練資料推論 |
| Resource Development | 準備 | 對抗樣本生成、替代模型訓練 |
| Initial Access | 攻擊 | 提示注入、對抗輸入、供應鏈入侵 |
| ML Attack Staging | 攻擊 | 推論 API 存取、資料投毒準備 |
| Execution | 攻擊 | 對抗式 ML 攻擊、模型逃避、擷取 |
| Persistence | 後攻擊 | 後門植入、訓練資料操弄 |
| Exfiltration | 後攻擊 | 模型竊取、訓練資料擷取 |
| Impact | 影響評估 | 模型退化、拒絕服務、完整性違規 |
關鍵 ATLAS 技術
| ID | 名稱 | 緩解 |
|---|---|---|
| AML.T0048 | 提示注入 | 輸入過濾、提示強化、輸出監控 |
| AML.T0049 | 間接提示注入 | 內容消毒、指令階層、沙箱 |
| AML.T0054 | LLM 越獄 | Constitutional AI、RLHF、輸出過濾 |
| AML.T0024 | 經由推論 API 的外洩 | 速率限制、查詢稽核、差分隱私 |
| AML.T0047 | ML 供應鏈入侵 | 產物簽章、來源追蹤、相依掃描 |
| AML.T0043 | 打造對抗資料 | 輸入消毒、異常偵測、人工審查 |
AI 系統的攻擊樹
結構
根目標:自 RAG 聊天機器人外洩 PII
├── OR:直接提示注入
│ ├── AND:擷取系統提示(成本:低)
│ └── AND:打造資料外洩 payload(成本:低)
├── OR:經由知識庫的間接注入
│ ├── AND:上傳被投毒的文件(成本:中)
│ └── AND:觸發檢索(成本:低)
├── OR:API 攻擊
│ ├── AND:發掘隱藏端點(成本:低)
│ └── AND:繞過驗證(成本:高)
└── OR:供應鏈入侵
└── 投毒嵌入模型(成本:非常高)分析攻擊樹
| 分析 | AND 節點 | OR 節點 |
|---|---|---|
| 成本 | 子節點成本加總 | 子節點最低成本 |
| 機率 | 子節點機率相乘 | 1 − ∏(1 − 子節點機率) |
| 最便宜路徑 | 必涵蓋所有子節點 | 挑選最便宜的子節點 |
代理式架構的信任邊界分析
代理式 AI 系統的信任邊界相當複雜,與傳統應用本質不同——因為 LLM 本身扮演跨邊界路由資料的決策者。
代理式信任區域
使用者區域
└─▶ 編排區域
├── 代理路由器 ──▶ LLM(規劃)
├── 工具路由器 ◄── 關鍵邊界
└── 記憶體 / 上下文
└─▶ 工具執行區域
├── 程式執行 ├── Web API
├── 資料庫 ├── 檔案 I/O
├── Email └── MCP 伺服器各邊界之威脅
| 邊界 | 威脅 | 影響 | 主要控管 |
|---|---|---|---|
| 使用者 → 編排器 | 直接提示注入 | 代理執行非預期動作 | 輸入消毒、意圖分類 |
| 使用者 → 編排器 | 角色混淆升級 | 透過自然語言取得更高存取 | 角色依驗證決定,而非提示內容 |
| 編排器 → LLM | 上下文視窗操弄 | 安全指令被擠出 | 上下文預算管理、指令重複 |
| 編排器 → LLM | 工具定義注入 | LLM 挑錯工具 | 靜態工具定義、綱要驗證 |
| LLM → 工具路由器 | 未授權工具呼叫 | 提權 | 每使用者工具白名單、授權層 |
| LLM → 工具路由器 | 參數注入 | 經由工具之 SQLi、命令注入、SSRF | 參數驗證、參數化查詢 |
| 工具 → 外部 | 資料外洩 | 經由模型中介請求的資料外洩 | 對外 URL 白名單、DLP、HITL |
| 工具 → 外部 | 經由 Web 工具的 SSRF | 內部網路偵察 | 阻擋內部 IP、防 DNS 綁架 |
| 外部 → 上下文 | 間接提示注入 | 藉不可信資料達成完整代理入侵 | 內容消毒、獨立處理上下文 |
MCP 威脅建模
MCP創造多數組織尚未建模的新穎特定威脅面。
MCP 特有威脅
| 威脅 | 類別 | 可能性 | 影響 |
|---|---|---|---|
| 工具定義投毒 —— 惡意伺服器於工具描述中注入提示注入 | 伺服器入侵 | 中 | 完整劫持代理行為 |
| 跨伺服器提權 —— 較低信任伺服器利用共享上下文存取較高信任伺服器的資料 | 信任邊界違反 | 高 | 提權 |
| 資源 URI 注入 —— MCP 資源 URI 中的路徑遍歷或 SSRF payload | 輸入驗證 | 高 | 未授權資料存取 |
| Sampling 操弄 —— 惡意伺服器利用 MCP sampling 對宿主 LLM 注入提示 | Sampling 濫用 | 中 | 資訊洩漏、額度耗盡 |
| 傳輸層攻擊 —— HTTP 未啟用 TLS 允許工具呼叫被攔截 | 通訊安全 | 中 | 中間人攻擊 |
MCP 緩解檢核表
- 工具定義白名單與完整性驗證
- 每伺服器上下文隔離
- URI 白名單驗證並進行路徑正規化
- Sampling 請求需使用者核准
- 對每伺服器的 sampling 呼叫速率限制
- 對 HTTP 傳輸強制 TLS;高安全場景採雙向 TLS
- 釘選 MCP 伺服器版本並驗證 checksum
資料流威脅矩陣
對 AI 系統而言,請追蹤資料如何流經架構,並辨識不可信資料可能影響模型行為、或敏感輸出可能外洩之處。
| 資料流 | 機密性威脅 | 完整性威脅 | 可用性威脅 |
|---|---|---|---|
| 使用者 → 模型 | N/A | 提示注入 | 上下文洪泛 |
| 系統提示 → 模型 | 擷取 | 經注入覆寫 | 上下文位移 |
| RAG → 模型 | 資料外洩 | 間接注入 | 被投毒的檢索 |
| 模型 → 工具 | 參數中的敏感資料 | 參數注入 | 無窮工具迴圈 |
| 工具 → 模型 | 回應資料洩漏 | 回應操弄 | 超時/停滯 |
| 模型 → 使用者 | 訓練資料洩漏 | 幻覺 | 拒答式 DoS |
| 記憶體 → 模型 | 跨 session 洩漏 | 記憶體投毒 | 記憶體耗盡 |
相關主題
Knowledge Check
在 RAG 聊天機器人的攻擊樹中,最便宜的攻擊路徑通常是:
參考資料
- MITRE ATLAS (Adversarial Threat Landscape for AI Systems) — AI 特有威脅框架
- OWASP AI Security and Privacy Guide — 完整 AI 威脅建模指南
- NIST AI Risk Management Framework (AI RMF 1.0, 2023) — 用於 AI 威脅評估的風險框架