大型語言模型安全威脅模型

中級2 分鐘閱讀更新於 2026-03-20

大型語言模型驅動應用程式的完整威脅模型，涵蓋所有攻擊面與威脅行動者。

threat-model security foundations assessment

概覽

威脅建模是識別、組織與排序系統安全風險的結構化流程。對 LLM 應用，傳統威脅模型需擴充以涵蓋 AI 特定攻擊面。本頁提供適用於各種 LLM 部署的完整威脅建模框架。

威脅模型元件

1. 資產（保護什麼）

模型權重：若自架，保護免於盜竊
系統提示詞：商業邏輯、工具定義、安全規則
使用者資料：個人資訊、對話歷史、上傳內容
訓練資料：若可萃取
工具能力：代理可採取的動作
系統可用性：服務運作
品牌聲譽：避免尷尬或有害輸出

2. 威脅行動者

行動者	動機	能力	典型攻擊
外部攻擊者	資料盜竊、聲譽損害、財務	黑箱存取	提示詞注入、越獄
惡意使用者	個人利益、繞過限制	合法帳號	越獄、資料萃取
競爭者	情報、模型盜竊	合法 API 存取	模型萃取
內部人員	資料盜竊、破壞	系統存取	白箱攻擊、資料洩漏
供應鏈攻擊者	長期存取、多目標	可存取供應商	訓練資料投毒、模型後門
國家行動者	策略操控	高級能力	精密供應鏈、長期存取

3. 攻擊面

列舉所有輸入／輸出點：

直接輸入：使用者訊息
間接輸入：RAG 文件、網頁、郵件、API 回應、工具輸出
工具介面：代理可呼叫的函式
記憶體 / 狀態：持久儲存、工作階段
輸出通道：回應、工具呼叫、電子郵件／webhook

4. 信任邊界

辨識系統中信任層級變化之處：

使用者輸入 → 應用（不信任→部分信任）
應用 → LLM（信任→信任）
LLM 輸出 → 下游系統（部分信任→依情境）
外部資料 → 應用（不信任→信任，常為隱含）

5. 風險評估

對每辨識威脅評估：

可能性：攻擊發生機率（低/中/高/極高）
影響：成功攻擊的傷害（低/中/高/危急）
可偵測性：攻擊被偵測的容易度（低意味無法偵測 = 較壞）
整體風險：可能性 × 影響，調整以偵測性

STRIDE 對 LLM 的調適

STRIDE 類別	傳統意義	LLM 對應
Spoofing（冒名）	冒用他人身份	系統提示詞冒用、權威聲明
Tampering（竄改）	修改資料 / 程式碼	注入、訓練資料投毒
Repudiation（否認）	否認行動	對話記錄偽造
Information Disclosure（資訊揭露）	未授權資料存取	系統提示詞萃取、訓練資料萃取、使用者資料洩漏
Denial of Service（阻斷服務）	可用性攻擊	資源耗盡、上下文溢位
Elevation of Privilege（權限提升）	權限提升	代理利用、工具濫用

威脅建模工作流程

定義範圍
界定系統邊界、部署模式、使用者族群。
分解架構
圖示元件、資料流、信任邊界。
辨識威脅
對每元件應用 STRIDE 或其他框架，列舉可能威脅。
評估風險
對每威脅評估可能性、影響、偵測性，計算整體風險。
優先緩解
由高風險至低排序；配對緩解；評估剩餘風險。
驗證
紅隊演練驗證緩解；定期重新評估。

範例：RAG 聊天機器人威脅模型

資產：系統提示詞、使用者對話、來源文件 行動者：外部使用者、惡意使用者、競爭者 主要威脅：

間接注入透過被投毒文件（高可能性，高影響）
系統提示詞萃取（高可能性，中影響）
跨使用者資料洩漏（中可能性，高影響）
越獄於生成不當內容（高可能性，中影響）

優先緩解：

文件來源驗證與淨化
系統提示詞萃取偵測
嚴格工作階段隔離
輸入過濾與輸出監控

對紅隊演練的意涵

威脅模型應驅動紅隊演練範圍：

聚焦於高可能性、高影響威脅
不忽略低可能性但危急影響威脅
跨所有辨識攻擊面測試
驗證緩解對所辨識威脅有效

參考文獻

OWASP (2025). OWASP Top 10 for LLM Applications
MITRE ATLAS —— AI 系統的對抗威脅版圖
NIST AI 600-1. AI Risk Management Framework

Knowledge Check

為何 LLM 威脅模型需擴充傳統威脅建模框架？

大型語言模型安全威脅模型

中級2 分鐘閱讀更新於 2026-03-20

大型語言模型驅動應用程式的完整威脅模型，涵蓋所有攻擊面與威脅行動者。

threat-model security foundations assessment

概覽

威脅模型元件

1. 資產（保護什麼）

模型權重：若自架，保護免於盜竊
系統提示詞：商業邏輯、工具定義、安全規則
使用者資料：個人資訊、對話歷史、上傳內容
訓練資料：若可萃取
工具能力：代理可採取的動作
系統可用性：服務運作
品牌聲譽：避免尷尬或有害輸出

2. 威脅行動者

行動者	動機	能力	典型攻擊
外部攻擊者	資料盜竊、聲譽損害、財務	黑箱存取	提示詞注入、越獄
惡意使用者	個人利益、繞過限制	合法帳號	越獄、資料萃取
競爭者	情報、模型盜竊	合法 API 存取	模型萃取
內部人員	資料盜竊、破壞	系統存取	白箱攻擊、資料洩漏
供應鏈攻擊者	長期存取、多目標	可存取供應商	訓練資料投毒、模型後門
國家行動者	策略操控	高級能力	精密供應鏈、長期存取

3. 攻擊面

列舉所有輸入／輸出點：

直接輸入：使用者訊息
間接輸入：RAG 文件、網頁、郵件、API 回應、工具輸出
工具介面：代理可呼叫的函式
記憶體 / 狀態：持久儲存、工作階段
輸出通道：回應、工具呼叫、電子郵件／webhook

4. 信任邊界

辨識系統中信任層級變化之處：

使用者輸入 → 應用（不信任→部分信任）
應用 → LLM（信任→信任）
LLM 輸出 → 下游系統（部分信任→依情境）
外部資料 → 應用（不信任→信任，常為隱含）

5. 風險評估

對每辨識威脅評估：

可能性：攻擊發生機率（低/中/高/極高）
影響：成功攻擊的傷害（低/中/高/危急）
可偵測性：攻擊被偵測的容易度（低意味無法偵測 = 較壞）
整體風險：可能性 × 影響，調整以偵測性

STRIDE 對 LLM 的調適

STRIDE 類別	傳統意義	LLM 對應
Spoofing（冒名）	冒用他人身份	系統提示詞冒用、權威聲明
Tampering（竄改）	修改資料 / 程式碼	注入、訓練資料投毒
Repudiation（否認）	否認行動	對話記錄偽造
Information Disclosure（資訊揭露）	未授權資料存取	系統提示詞萃取、訓練資料萃取、使用者資料洩漏
Denial of Service（阻斷服務）	可用性攻擊	資源耗盡、上下文溢位
Elevation of Privilege（權限提升）	權限提升	代理利用、工具濫用

威脅建模工作流程

定義範圍
界定系統邊界、部署模式、使用者族群。
分解架構
圖示元件、資料流、信任邊界。
辨識威脅
對每元件應用 STRIDE 或其他框架，列舉可能威脅。
評估風險
對每威脅評估可能性、影響、偵測性，計算整體風險。
優先緩解
由高風險至低排序；配對緩解；評估剩餘風險。
驗證
紅隊演練驗證緩解；定期重新評估。

範例：RAG 聊天機器人威脅模型

資產：系統提示詞、使用者對話、來源文件 行動者：外部使用者、惡意使用者、競爭者 主要威脅：

間接注入透過被投毒文件（高可能性，高影響）
系統提示詞萃取（高可能性，中影響）
跨使用者資料洩漏（中可能性，高影響）
越獄於生成不當內容（高可能性，中影響）

優先緩解：

文件來源驗證與淨化
系統提示詞萃取偵測
嚴格工作階段隔離
輸入過濾與輸出監控

對紅隊演練的意涵

威脅模型應驅動紅隊演練範圍：

聚焦於高可能性、高影響威脅
不忽略低可能性但危急影響威脅
跨所有辨識攻擊面測試
驗證緩解對所辨識威脅有效

參考文獻

OWASP (2025). OWASP Top 10 for LLM Applications
MITRE ATLAS —— AI 系統的對抗威脅版圖
NIST AI 600-1. AI Risk Management Framework

Knowledge Check

為何 LLM 威脅模型需擴充傳統威脅建模框架？

大型語言模型安全威脅模型

概覽

威脅模型元件

1. 資產（保護什麼）

2. 威脅行動者

3. 攻擊面

4. 信任邊界

5. 風險評估

STRIDE 對 LLM 的調適

威脅建模工作流程

定義範圍

分解架構

辨識威脅

評估風險

優先緩解

驗證

範例：RAG 聊天機器人威脅模型

對紅隊演練的意涵

相關主題

參考文獻

大型語言模型安全威脅模型

概覽

威脅模型元件

1. 資產（保護什麼）

2. 威脅行動者

3. 攻擊面

4. 信任邊界

5. 風險評估

STRIDE 對 LLM 的調適

威脅建模工作流程

定義範圍

分解架構

辨識威脅

評估風險

優先緩解

驗證

範例：RAG 聊天機器人威脅模型

對紅隊演練的意涵

相關主題

參考文獻

大型語言模型安全威脅模型

定義範圍

分解架構

辨識威脅

評估風險

優先緩解

驗證

相關文章

大型語言模型安全威脅模型

定義範圍

分解架構

辨識威脅

評估風險

優先緩解

驗證

相關文章