大型語言模型安全威脅模型
中級2 分鐘閱讀更新於 2026-03-20
大型語言模型驅動應用程式的完整威脅模型,涵蓋所有攻擊面與威脅行動者。
概覽
威脅建模是識別、組織與排序系統安全風險的結構化流程。對 LLM 應用,傳統威脅模型需擴充以涵蓋 AI 特定攻擊面。本頁提供適用於各種 LLM 部署的完整威脅建模框架。
威脅模型元件
1. 資產(保護什麼)
- 模型權重:若自架,保護免於盜竊
- 系統提示詞:商業邏輯、工具定義、安全規則
- 使用者資料:個人資訊、對話歷史、上傳內容
- 訓練資料:若可萃取
- 工具能力:代理可採取的動作
- 系統可用性:服務運作
- 品牌聲譽:避免尷尬或有害輸出
2. 威脅行動者
| 行動者 | 動機 | 能力 | 典型攻擊 |
|---|---|---|---|
| 外部攻擊者 | 資料盜竊、聲譽損害、財務 | 黑箱存取 | 提示詞注入、越獄 |
| 惡意使用者 | 個人利益、繞過限制 | 合法帳號 | 越獄、資料萃取 |
| 競爭者 | 情報、模型盜竊 | 合法 API 存取 | 模型萃取 |
| 內部人員 | 資料盜竊、破壞 | 系統存取 | 白箱攻擊、資料洩漏 |
| 供應鏈攻擊者 | 長期存取、多目標 | 可存取供應商 | 訓練資料投毒、模型後門 |
| 國家行動者 | 策略操控 | 高級能力 | 精密供應鏈、長期存取 |
3. 攻擊面
列舉所有輸入/輸出點:
- 直接輸入:使用者訊息
- 間接輸入:RAG 文件、網頁、郵件、API 回應、工具輸出
- 工具介面:代理可呼叫的函式
- 記憶體 / 狀態:持久儲存、工作階段
- 輸出通道:回應、工具呼叫、電子郵件/webhook
4. 信任邊界
辨識系統中信任層級變化之處:
- 使用者輸入 → 應用(不信任→部分信任)
- 應用 → LLM(信任→信任)
- LLM 輸出 → 下游系統(部分信任→依情境)
- 外部資料 → 應用(不信任→信任,常為隱含)
5. 風險評估
對每辨識威脅評估:
- 可能性:攻擊發生機率(低/中/高/極高)
- 影響:成功攻擊的傷害(低/中/高/危急)
- 可偵測性:攻擊被偵測的容易度(低意味無法偵測 = 較壞)
- 整體風險:可能性 × 影響,調整以偵測性
STRIDE 對 LLM 的調適
| STRIDE 類別 | 傳統意義 | LLM 對應 |
|---|---|---|
| Spoofing(冒名) | 冒用他人身份 | 系統提示詞冒用、權威聲明 |
| Tampering(竄改) | 修改資料 / 程式碼 | 注入、訓練資料投毒 |
| Repudiation(否認) | 否認行動 | 對話記錄偽造 |
| Information Disclosure(資訊揭露) | 未授權資料存取 | 系統提示詞萃取、訓練資料萃取、使用者資料洩漏 |
| Denial of Service(阻斷服務) | 可用性攻擊 | 資源耗盡、上下文溢位 |
| Elevation of Privilege(權限提升) | 權限提升 | 代理利用、工具濫用 |
威脅建模工作流程
定義範圍
界定系統邊界、部署模式、使用者族群。
分解架構
圖示元件、資料流、信任邊界。
辨識威脅
對每元件應用 STRIDE 或其他框架,列舉可能威脅。
評估風險
對每威脅評估可能性、影響、偵測性,計算整體風險。
優先緩解
由高風險至低排序;配對緩解;評估剩餘風險。
驗證
紅隊演練驗證緩解;定期重新評估。
範例:RAG 聊天機器人威脅模型
資產:系統提示詞、使用者對話、來源文件 行動者:外部使用者、惡意使用者、競爭者 主要威脅:
- 間接注入透過被投毒文件(高可能性,高影響)
- 系統提示詞萃取(高可能性,中影響)
- 跨使用者資料洩漏(中可能性,高影響)
- 越獄於生成不當內容(高可能性,中影響)
優先緩解:
- 文件來源驗證與淨化
- 系統提示詞萃取偵測
- 嚴格工作階段隔離
- 輸入過濾與輸出監控
對紅隊演練的意涵
威脅模型應驅動紅隊演練範圍:
- 聚焦於高可能性、高影響威脅
- 不忽略低可能性但危急影響威脅
- 跨所有辨識攻擊面測試
- 驗證緩解對所辨識威脅有效
相關主題
參考文獻
- OWASP (2025). OWASP Top 10 for LLM Applications
- MITRE ATLAS —— AI 系統的對抗威脅版圖
- NIST AI 600-1. AI Risk Management Framework
Knowledge Check
為何 LLM 威脅模型需擴充傳統威脅建模框架?