運用 MITRE ATLAS 進行 AI 攻擊對應
將 AI 紅隊演練的活動與發現對應至 MITRE ATLAS 框架的實作詳解,涵蓋戰術與技術辨識、攻擊鏈建構以及 Navigator 視覺化。
MITRE ATLAS(Adversarial Threat Landscape for AI Systems)延伸自 MITRE ATT&CK 框架,專門涵蓋針對機器學習系統的對抗性攻擊。OWASP LLM Top 10 著重於漏洞類型分類,而 ATLAS 則記錄攻擊者的行進路徑:從初始偵察到最終衝擊所使用的戰術與技術序列。本詳解說明如何運用 ATLAS 記錄攻擊路徑、找出紅隊涵蓋面的缺口,並以資安營運團隊早已熟悉的 ATT&CK 語彙傳達發現。
ATLAS 與 OWASP 是互補關係,而非取代。請用 OWASP 做漏洞分類,用 ATLAS 做攻擊路徑記錄。
步驟一:理解 ATLAS 結構
ATLAS 戰術(攻擊階段)
ATLAS 的戰術架構與 ATT&CK 類似,但經過調整以適用於 ML/AI 系統:
| 戰術 ID | 戰術名稱 | 說明 | 對 AI 紅隊的意義 |
|---|---|---|---|
| AML.TA0000 | 偵察(Reconnaissance) | 蒐集 AI 系統的相關資訊 | 模型辨識、能力列舉 |
| AML.TA0001 | 資源開發(Resource Development) | 準備攻擊所需的工具與資源 | 自訂提示詞庫、攻擊腳本 |
| AML.TA0002 | 初始存取(Initial Access) | 取得 AI 系統的初始進入點 | API 存取、帳號建立 |
| AML.TA0003 | ML 模型存取(ML Model Access) | 取得與模型互動的能力 | API 認證、直接模型查詢 |
| AML.TA0004 | 執行(Execution) | 對模型執行對抗性技術 | 提示詞注入、越獄 |
| AML.TA0005 | 持久(Persistence) | 維持對抗性存取或影響力 | 對話上下文操控、RAG 投毒 |
| AML.TA0006 | 規避防禦(Defense Evasion) | 避免被安全控管偵測 | 編碼攻擊、混淆、多輪規避 |
| AML.TA0007 | 探索(Discovery) | 了解 AI 系統內部 | 系統提示詞萃取、能力列舉 |
| AML.TA0008 | 蒐集(Collection) | 從 AI 系統蒐集資料 | 訓練資料萃取、RAG 外洩 |
| AML.TA0009 | 外洩(Exfiltration) | 把資料從系統中帶出 | 輸出編碼、側通道萃取 |
| AML.TA0010 | ML 攻擊籌備(ML Attack Staging) | 準備 ML 專屬的攻擊 | 製作對抗樣本、模型探測 |
| AML.TA0011 | 衝擊(Impact) | 達成攻擊者的最終目的 | 安全繞過、散布假訊息、服務中斷 |
LLM 紅隊常用的關鍵 ATLAS 技術
| 技術 ID | 技術名稱 | 紅隊常見應用 |
|---|---|---|
| AML.T0000 | 透過 API 存取 ML 模型 | 透過 API 與 AI 系統互動 |
| AML.T0015 | 直接提示詞注入 | 透過使用者輸入植入對抗指令 |
| AML.T0016 | 間接提示詞注入 | 透過外部資料來源植入指令 |
| AML.T0043 | LLM 越獄 | 繞過模型的安全對齊 |
| AML.T0044 | 系統提示詞萃取 | 揭露系統層級的指令 |
| AML.T0045 | 完整提示詞萃取 | 取得整個提示詞上下文 |
| AML.T0046 | 訓練資料萃取 | 從模型輸出還原訓練資料 |
| AML.T0047 | LLM 外掛破壞 | 利用模型的工具使用能力 |
| AML.T0048 | 透過微調操控模型 | 以微調權限破壞模型 |
| AML.T0049 | RAG 資料投毒 | 將對抗性內容注入知識庫 |
| AML.T0040 | ML 模型推論 API 存取 | 透過推論 API 進行系統性探測 |
| AML.T0042 | 驗證 ML 模型 | 確認模型身份與能力 |
| AML.T0024 | 透過 ML 推論 API 外洩 | 以模型回覆帶出資料 |
步驟二:將發現對應至 ATLAS 技術
對應範本
為每項發現辨識其攻擊鏈所使用的 ATLAS 技術。下方為 Markdown 格式的對應紀錄範例:
針對 F-001「直接提示詞注入繞過」,應紀錄以下資訊:於偵察階段使用 AML.T0042(驗證 ML 模型),透過行為分析辨識模型類型;於 ML 模型存取階段使用 AML.T0000(透過 API 存取),取得經認證的 API 存取;於執行階段使用 AML.T0015(直接提示詞注入),投放 DAN 人設注入載荷;於規避防禦階段使用 AML.T0043(LLM 越獄),以人設框架規避內容過濾;最終衝擊以 AML.T0011(阻斷 ML 服務完整性)的形式破壞內容安全控管。攻擊鏈記為 AML.T0042 → AML.T0000 → AML.T0015 → AML.T0043 → 衝擊。
針對 F-003「RAG 跨租戶資料存取」,攻擊鏈依序為:AML.T0042 驗證模型 → AML.T0000 透過 API 存取 → AML.T0007 探索模型家族(辨識嵌入模型行為) → AML.T0015 直接注入(操控檢索查詢) → AML.T0024 透過推論 API 外洩(取得跨租戶文件) → 衝擊為機密租戶資料外洩。
步驟三:建構攻擊鏈視覺化
文字版攻擊鏈標記
使用純文字方塊圖表示攻擊鏈的順序。例如 F-001 可視為:偵察階段的 AML.T0042(驗證 ML 模型)指向 ML 模型存取階段的 AML.T0000(API 存取);接著進入執行階段的 AML.T0015(直接注入),再進入規避防禦階段的 AML.T0043(越獄),最終衝擊為「安全繞過」。
F-004「系統提示詞萃取」的路徑則為:AML.T0042 → AML.T0000 → AML.T0015(直接注入) → AML.T0044(系統提示詞萃取) → 衝擊為「組態外洩」。
ATLAS Navigator Layer 組態
產生 ATLAS Navigator 圖層檔,以凸顯本次演練所觀察到的技術。圖層檔為 JSON 格式,name 欄位可填入「AI 紅隊評估 - [客戶名稱]」,versions 宣告 atlas: "4.5" 與 navigator: "4.9",domain 為 "atlas",並在 description 欄位描述此圖層對應的演練內容。
techniques 陣列列出每項受測技術,每筆包含 techniqueID、對應的 tactic、顯示顏色 color、備註 comment 與評分 score。建議的配色規則為:未測試以白色表示;已測試但無發現以淺藍(例如 #66b1ff)表示;中低風險發現以橘色(例如 #ff9933)表示;高風險或重大發現以紅色(例如 #ff6666)表示。gradient 段落以此四色梯度顯示,minValue 為 0、maxValue 為 5。legendItems 段落對應圖例說明,讓讀者能快速理解顏色含義。
步驟四:以 ATLAS 找出涵蓋缺口
運用 ATLAS 技術矩陣找出尚未測試的攻擊技術。
涵蓋缺口分析
建議將技術分為三類記錄:
已測試技術:例如 AML.T0000(API 存取,已取得)、AML.T0015(直接注入,對應 F-001)、AML.T0042(模型驗證)、AML.T0043(越獄,對應 F-001)、AML.T0044(系統提示詞萃取,對應 F-004)、AML.T0024(外洩,對應 F-003)。
在範圍內但未執行的技術:如 AML.T0016(間接注入,因無可寫資料來源可用)、AML.T0049(RAG 資料投毒,因知識庫僅有唯讀存取)。
不適用的技術:如 AML.T0048(微調操控,因本次範圍無微調存取)、AML.T0046(訓練資料萃取,因是第三方託管模型)。
步驟五:產出報告內容
可放入報告的 ATLAS 摘要
報告中應包含下列段落:先以一段話說明本次演練所發現的所有攻擊路徑已對應至 MITRE ATLAS 戰術與技術。接著以表格呈現「攻擊路徑摘要」:列出每項發現的攻擊路徑與衝擊,例如 F-001 的路徑為 T0042 → T0000 → T0015 → T0043,衝擊為「內容安全繞過」;F-003 路徑為 T0042 → T0000 → T0015 → T0024,衝擊為「跨租戶資料存取」;F-004 路徑為 T0042 → T0000 → T0015 → T0044,衝擊為「系統提示詞外洩」;F-005 路徑為 T0042 → T0000 → T0015 → T0047,衝擊為「未授權函式執行」。
在「關鍵觀察」部分,建議點出:
- AML.T0015(直接提示詞注入) 是所有攻擊路徑的共同進入技術。僅針對此單一技術強化防禦,即可同時破壞五條攻擊鏈中的四條。
- 規避防禦技術 僅在 F-001 中被需要,意味著內容過濾器是主要防禦層,但其實並非到達其他衝擊所必需。
- 未測試間接注入,因本次範圍限制,該部分為重大未測攻擊面,應於後續演練中評估。
在「ATLAS 技術熱圖」段落,附上 Navigator 視覺化或匯出的圖層檔參照。
步驟六:交叉對照 ATLAS 與 OWASP
為了讓報告價值最大化,建議同時交叉對照兩個框架。建議以表格列出每項發現對應的 ATLAS 主要技術、OWASP 主要類別,以及綜合洞察。舉例而言:F-001 對應 AML.T0043(越獄)與 LLM01(提示詞注入),ATLAS 呈現攻擊路徑、OWASP 呈現漏洞分類;F-003 對應 AML.T0024(外洩)與 LLM08(向量/嵌入),ATLAS 說明外洩手法、OWASP 指出弱點類型;F-004 對應 AML.T0044(提示詞萃取)與 LLM07(系統提示詞外洩),兩者一致,ATLAS 補上攻擊鏈脈絡;F-005 對應 AML.T0047(外掛破壞)與 LLM06(過度代理),ATLAS 聚焦於技術面、OWASP 聚焦於權限模型。
常見的 ATLAS 對應錯誤
-
只對應到利用技術:ATLAS 的設計是呈現完整攻擊路徑,而非單一漏洞利用。即使偵察、初始存取、規避防禦等技術看似平凡,也應一併納入。
-
忽略戰術脈絡:同一個技術(例如 AML.T0015 提示詞注入)可服務不同的戰術目的:執行、規避防禦、蒐集等。請將技術對應到該項發現最貼切的戰術。
-
把 ATLAS 當檢核清單:ATLAS 是知識庫,不是測試檢核清單。並非每項技術都適用於每次演練,應聚焦於適用目標架構的技術。
-
使用過時的技術 ID:ATLAS 持續在維護,技術 ID 可能在版本間改變。請註明所對應的 ATLAS 版本,並在定稿前驗證技術 ID。
-
混淆 ATLAS 與 ATT&CK:雖然 ATLAS 採用 ATT&CK 的慣例,但技術是不同的,不可將 ATT&CK 的技術 ID 與 ATLAS 混用。
OWASP LLM Top 10 與 MITRE ATLAS 在分類 AI 安全發現時的主要差異為何?
相關主題
- OWASP LLM Top 10 對應 -- 互補的漏洞分類
- AI 威脅模型建立 -- 用於導出 ATLAS 對應的威脅模型
- 攻擊面對應 -- 作為技術辨識基礎的攻擊面分析
- NIST AI RMF 評估 -- 參考 ATLAS 的風險管理框架