AI 威脅模型:白箱、黑箱與灰箱
中級4 分鐘閱讀更新於 2026-03-13
AI 安全測試中的存取層級——每層級可能的操作、真實情境,以及與傳統安全威脅建模的比較。
為何威脅模型重要
威脅模型 定義攻擊者能看到什麼、做什麼、知道什麼。沒有清晰的威脅模型,紅隊案件要麼於不真實攻擊浪費時間,要麼錯過關鍵真實攻擊。
於 AI 安全,存取層級決定整個攻擊版圖。
三個存取層級
黑箱存取
攻擊者只能透過正常介面與系統互動——傳送輸入與觀察輸出。
| 特性 | 細節 |
|---|---|
| 模型權重 | 無存取 |
| 架構 | 未知(可能可推測) |
| 系統提示詞 | 隱藏(可嘗試萃取) |
| API 參數 | 僅介面暴露者 |
| 訓練資料 | 無存取 |
| 輸出細節 | 僅最終文字回應 |
可用攻擊:
| 攻擊類別 | 技術 |
|---|---|
| 提示詞注入 | 直接注入、角色扮演、few-shot 引導 |
| 系統提示詞萃取 | 社交工程使模型揭示其指令 |
| 越獄 | 手動提示詞打造、自動化模糊測試 |
| 資料萃取 | 探測記憶的訓練資料 |
| 行為測試 | 測試偏見、政策違反、不一致 |
| Best-of-N 取樣 | 重複查詢找隨機繞過 |
真實情境:使用者攻擊聊天機器人、外部滲透測試、攻擊競爭者產品。
灰箱存取
攻擊者有部分知識——可能模型名稱、API 文件、系統提示詞或某些架構細節——但無完整模型權重。
| 特性 | 細節 |
|---|---|
| 模型權重 | 無存取 |
| 架構 | 已知(模型名稱、版本) |
| 系統提示詞 | 可能已知(洩漏、文件) |
| API 參數 | 完整 API 文件可用 |
| 訓練資料 | 部分知識(公開訓練資料來源) |
| 輸出細節 | 可能包含 logprobs、符元計數 |
額外攻擊(超越黑箱):
| 攻擊類別 | 技術 |
|---|---|
| 參數操控 | logit_bias、溫度、停止序列 |
| Logprob 分析 | 符元機率萃取、信心探測 |
| 轉移攻擊 | 於類似開源模型打造攻擊、於目標測試 |
| 微調 API 濫用 | 若微調 API 可用則投毒微調資料 |
| 工具 schema 利用 | 打造針對已知工具定義的輸入 |
真實情境:開發者攻擊自家公司 AI 產品、具 API 存取與文件的研究人員、具部署知識的內部人員。
白箱存取
完整存取模型權重、架構、訓練資料與部署配置。
| 特性 | 細節 |
|---|---|
| 模型權重 | 完整存取 |
| 架構 | 完全已知 |
| 系統提示詞 | 已知 |
| API 參數 | 全部可存取 |
| 訓練資料 | 可存取(對開源模型) |
| 輸出細節 | 完整 logits、激活、注意力權重 |
額外攻擊(超越灰箱):
| 攻擊類別 | 技術 |
|---|---|
| 基於梯度的攻擊 | FGSM、PGD、GCG 後綴最佳化 |
| 激活分析 | 探測內部表徵 |
| 權重操控 | 直接修改模型行為 |
| 訓練資料萃取 | 成員推論、資料重建 |
| 機制分析 | 理解特定電路與特徵 |
| 後門植入 | 修改權重以植入觸發 |
真實情境:自架開源模型、AI 安全研究人員、具完整基礎設施存取的內部紅隊。
存取層級比較
| 能力 | 黑箱 | 灰箱 | 白箱 |
|---|---|---|---|
| 提示詞注入 | 是 | 是 | 是 |
| 越獄 | 手動 | 半自動化 | 完全自動化(GCG) |
| 系統提示詞萃取 | 透過提示詞嘗試 | 可能已知 | 已知 |
| 基於梯度的攻擊 | 無 | 透過轉移 | 直接 |
| 激活探測 | 無 | 無 | 是 |
| 微調攻擊 | 無 | 若 API 可用 | 直接 |
| 資料萃取 | 僅探測 | 增強探測 | 成員推論 |
| 工具操控 | 若工具可發掘 | 已知工具 schema | 完整工具存取 |
情境對應至威脅模型
| 因素 | 評估 |
|---|---|
| 存取層級 | 黑箱 |
| 目標 | 越獄、資料萃取、濫用 |
| 能力 | 標準 API/聊天存取、無限嘗試 |
| 限制 | 速率限制、無內部知識 |
| 主要攻擊 | 提示詞注入、行為測試、best-of-N |
| 紅隊方法 | 自動化提示詞模糊測試、手動創造攻擊 |
| 因素 | 評估 |
|---|---|
| 存取層級 | 灰箱至白箱 |
| 目標 | 後門植入、資料外洩、破壞 |
| 能力 | 程式碼存取、部署知識、訓練資料存取 |
| 限制 | 必須避免偵測、可能有稽核軌跡 |
| 主要攻擊 | 投毒、後門觸發、提示詞樣板操控 |
| 紅隊方法 | 程式碼審查、訓練資料稽核、行為一致性測試 |
| 因素 | 評估 |
|---|---|
| 存取層級 | 變動——對元件可能有白箱 |
| 目標 | 透過共享元件廣泛入侵 |
| 能力 | 控制模型、函式庫或資料集 |
| 限制 | 必須通過整合測試、可能被偵測 |
| 主要攻擊 | 模型投毒、相依性操控、資料污染 |
| 紅隊方法 | 供應鏈稽核、模型來源驗證 |
AI vs. 傳統威脅建模
AI 威脅建模擴充傳統安全威脅建模但引入獨特考量:
| 面向 | 傳統安全 | AI 安全 |
|---|---|---|
| 輸入驗證 | 良好定義(類型、範圍) | 不明確定義(自然語言) |
| 攻擊面 | 程式碼、網路、基礎設施 | + 模型行為、訓練資料 |
| 確定性 | 同輸入 → 同輸出 | 隨機輸出 |
| 信任邊界 | 清晰(auth、authz) | 模糊(模型遵循指令,非規則) |
| 漏洞定義 | 偏離規格 | 規格是機率性的 |
| 修補 | 程式碼變更、部署 | 重訓、微調、加護欄 |
| 測試 | 功能 + 滲透 | + 行為、對抗、對齊 |
AI 系統的 STRIDE
調適傳統 STRIDE 框架於 AI:
| 威脅 | 傳統 | AI 特定 |
|---|---|---|
| Spoofing | 認證繞過 | 提示詞中角色冒用 |
| Tampering | 資料修改 | 訓練資料投毒、記憶體損壞 |
| Repudiation | 動作否認 | 隨機輸出使重現困難 |
| Information Disclosure | 資料洩漏 | 記憶化洩漏、系統提示詞萃取 |
| Denial of Service | 資源耗盡 | 符元成本攻擊、無限迴圈 |
| Elevation of Privilege | 未授權存取 | 提示詞注入 → 工具濫用 |
建立您的 AI 威脅模型
辨識系統
哪種部署模式?哪個模型?哪些工具與資料存取?參閱 AI 系統架構。
定義對手
外部使用者、內部、供應鏈?哪個存取層級對應現實?
列舉攻擊向量
給定存取層級,哪些攻擊可行?以上方表格作為起點。
評估影響
對每攻擊向量,最壞情況為何?資料洩漏、未授權動作、聲譽傷害?
優先
依可行性 × 影響排名向量。紅隊努力聚焦於高可行性、高影響情境。
相關主題
- 對抗式 ML:核心概念 ——對應至每威脅模型的攻擊分類
- 基於梯度的攻擊 ——詳盡白箱攻擊
- 常見 AI 部署模式 ——部署情境形塑威脅模型
- 實作:繪製 AI 系統的攻擊面 ——威脅建模的實作練習
參考文獻
- "Threat Modeling: Designing for Security" - Shostack, Adam (2014) ——引入 STRIDE 的奠基書籍,調適於 AI 系統
- "NIST AI Risk Management Framework (AI RMF 1.0)" - NIST (2023) ——辨識、評估、管理 AI 風險的聯邦框架
- "MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE (2025) ——依存取層級組織的 ML 系統對抗技術威脅矩陣
- "OWASP Top 10 for LLM Applications" - OWASP (2025) ——對應至 LLM 應用不同威脅模型情境的業界標準風險分類
Knowledge Check
某公司透過 API 將 GPT-4 部署為客服聊天機器人。外部攻擊者想透過聊天介面萃取客戶資料。哪個威脅模型最適切?