AI 威脅模型：白箱、黑箱與灰箱

中級4 分鐘閱讀更新於 2026-03-13

AI 安全測試中的存取層級——每層級可能的操作、真實情境，以及與傳統安全威脅建模的比較。

threat-model white-box black-box grey-box intermediate

為何威脅模型重要

威脅模型定義攻擊者能看到什麼、做什麼、知道什麼。沒有清晰的威脅模型，紅隊案件要麼於不真實攻擊浪費時間，要麼錯過關鍵真實攻擊。

於 AI 安全，存取層級決定整個攻擊版圖。

三個存取層級

黑箱存取

攻擊者只能透過正常介面與系統互動——傳送輸入與觀察輸出。

特性	細節
模型權重	無存取
架構	未知（可能可推測）
系統提示詞	隱藏（可嘗試萃取）
API 參數	僅介面暴露者
訓練資料	無存取
輸出細節	僅最終文字回應

可用攻擊：

攻擊類別	技術
提示詞注入	直接注入、角色扮演、few-shot 引導
系統提示詞萃取	社交工程使模型揭示其指令
越獄	手動提示詞打造、自動化模糊測試
資料萃取	探測記憶的訓練資料
行為測試	測試偏見、政策違反、不一致
Best-of-N 取樣	重複查詢找隨機繞過

真實情境：使用者攻擊聊天機器人、外部滲透測試、攻擊競爭者產品。

灰箱存取

攻擊者有部分知識——可能模型名稱、API 文件、系統提示詞或某些架構細節——但無完整模型權重。

特性	細節
模型權重	無存取
架構	已知（模型名稱、版本）
系統提示詞	可能已知（洩漏、文件）
API 參數	完整 API 文件可用
訓練資料	部分知識（公開訓練資料來源）
輸出細節	可能包含 logprobs、符元計數

額外攻擊（超越黑箱）：

攻擊類別	技術
參數操控	logit_bias、溫度、停止序列
Logprob 分析	符元機率萃取、信心探測
轉移攻擊	於類似開源模型打造攻擊、於目標測試
微調 API 濫用	若微調 API 可用則投毒微調資料
工具 schema 利用	打造針對已知工具定義的輸入

真實情境：開發者攻擊自家公司 AI 產品、具 API 存取與文件的研究人員、具部署知識的內部人員。

白箱存取

完整存取模型權重、架構、訓練資料與部署配置。

特性	細節
模型權重	完整存取
架構	完全已知
系統提示詞	已知
API 參數	全部可存取
訓練資料	可存取（對開源模型）
輸出細節	完整 logits、激活、注意力權重

額外攻擊（超越灰箱）：

攻擊類別	技術
基於梯度的攻擊	FGSM、PGD、GCG 後綴最佳化
激活分析	探測內部表徵
權重操控	直接修改模型行為
訓練資料萃取	成員推論、資料重建
機制分析	理解特定電路與特徵
後門植入	修改權重以植入觸發

真實情境：自架開源模型、AI 安全研究人員、具完整基礎設施存取的內部紅隊。

存取層級比較

能力	黑箱	灰箱	白箱
提示詞注入	是	是	是
越獄	手動	半自動化	完全自動化（GCG）
系統提示詞萃取	透過提示詞嘗試	可能已知	已知
基於梯度的攻擊	無	透過轉移	直接
激活探測	無	無	是
微調攻擊	無	若 API 可用	直接
資料萃取	僅探測	增強探測	成員推論
工具操控	若工具可發掘	已知工具 schema	完整工具存取

情境對應至威脅模型

因素	評估
存取層級	黑箱
目標	越獄、資料萃取、濫用
能力	標準 API/聊天存取、無限嘗試
限制	速率限制、無內部知識
主要攻擊	提示詞注入、行為測試、best-of-N
紅隊方法	自動化提示詞模糊測試、手動創造攻擊

因素	評估
存取層級	灰箱至白箱
目標	後門植入、資料外洩、破壞
能力	程式碼存取、部署知識、訓練資料存取
限制	必須避免偵測、可能有稽核軌跡
主要攻擊	投毒、後門觸發、提示詞樣板操控
紅隊方法	程式碼審查、訓練資料稽核、行為一致性測試

因素	評估
存取層級	變動——對元件可能有白箱
目標	透過共享元件廣泛入侵
能力	控制模型、函式庫或資料集
限制	必須通過整合測試、可能被偵測
主要攻擊	模型投毒、相依性操控、資料污染
紅隊方法	供應鏈稽核、模型來源驗證

AI vs. 傳統威脅建模

AI 威脅建模擴充傳統安全威脅建模但引入獨特考量：

面向	傳統安全	AI 安全
輸入驗證	良好定義（類型、範圍）	不明確定義（自然語言）
攻擊面	程式碼、網路、基礎設施	+ 模型行為、訓練資料
確定性	同輸入 → 同輸出	隨機輸出
信任邊界	清晰（auth、authz）	模糊（模型遵循指令，非規則）
漏洞定義	偏離規格	規格是機率性的
修補	程式碼變更、部署	重訓、微調、加護欄
測試	功能 + 滲透	+ 行為、對抗、對齊

AI 系統的 STRIDE

調適傳統 STRIDE 框架於 AI：

威脅	傳統	AI 特定
Spoofing	認證繞過	提示詞中角色冒用
Tampering	資料修改	訓練資料投毒、記憶體損壞
Repudiation	動作否認	隨機輸出使重現困難
Information Disclosure	資料洩漏	記憶化洩漏、系統提示詞萃取
Denial of Service	資源耗盡	符元成本攻擊、無限迴圈
Elevation of Privilege	未授權存取	提示詞注入 → 工具濫用

建立您的 AI 威脅模型

辨識系統
哪種部署模式？哪個模型？哪些工具與資料存取？參閱 AI 系統架構。
定義對手
外部使用者、內部、供應鏈？哪個存取層級對應現實？
列舉攻擊向量
給定存取層級，哪些攻擊可行？以上方表格作為起點。
評估影響
對每攻擊向量，最壞情況為何？資料洩漏、未授權動作、聲譽傷害？
優先
依可行性 × 影響排名向量。紅隊努力聚焦於高可行性、高影響情境。

參考文獻

"Threat Modeling: Designing for Security" - Shostack, Adam (2014) ——引入 STRIDE 的奠基書籍，調適於 AI 系統
"NIST AI Risk Management Framework (AI RMF 1.0)" - NIST (2023) ——辨識、評估、管理 AI 風險的聯邦框架
"MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE (2025) ——依存取層級組織的 ML 系統對抗技術威脅矩陣
"OWASP Top 10 for LLM Applications" - OWASP (2025) ——對應至 LLM 應用不同威脅模型情境的業界標準風險分類

Knowledge Check

某公司透過 API 將 GPT-4 部署為客服聊天機器人。外部攻擊者想透過聊天介面萃取客戶資料。哪個威脅模型最適切？

AI 威脅模型：白箱、黑箱與灰箱

中級4 分鐘閱讀更新於 2026-03-13

AI 安全測試中的存取層級——每層級可能的操作、真實情境，以及與傳統安全威脅建模的比較。

threat-model white-box black-box grey-box intermediate

為何威脅模型重要

威脅模型定義攻擊者能看到什麼、做什麼、知道什麼。沒有清晰的威脅模型，紅隊案件要麼於不真實攻擊浪費時間，要麼錯過關鍵真實攻擊。

於 AI 安全，存取層級決定整個攻擊版圖。

三個存取層級

黑箱存取

攻擊者只能透過正常介面與系統互動——傳送輸入與觀察輸出。

特性	細節
模型權重	無存取
架構	未知（可能可推測）
系統提示詞	隱藏（可嘗試萃取）
API 參數	僅介面暴露者
訓練資料	無存取
輸出細節	僅最終文字回應

可用攻擊：

攻擊類別	技術
提示詞注入	直接注入、角色扮演、few-shot 引導
系統提示詞萃取	社交工程使模型揭示其指令
越獄	手動提示詞打造、自動化模糊測試
資料萃取	探測記憶的訓練資料
行為測試	測試偏見、政策違反、不一致
Best-of-N 取樣	重複查詢找隨機繞過

真實情境：使用者攻擊聊天機器人、外部滲透測試、攻擊競爭者產品。

灰箱存取

攻擊者有部分知識——可能模型名稱、API 文件、系統提示詞或某些架構細節——但無完整模型權重。

特性	細節
模型權重	無存取
架構	已知（模型名稱、版本）
系統提示詞	可能已知（洩漏、文件）
API 參數	完整 API 文件可用
訓練資料	部分知識（公開訓練資料來源）
輸出細節	可能包含 logprobs、符元計數

額外攻擊（超越黑箱）：

攻擊類別	技術
參數操控	logit_bias、溫度、停止序列
Logprob 分析	符元機率萃取、信心探測
轉移攻擊	於類似開源模型打造攻擊、於目標測試
微調 API 濫用	若微調 API 可用則投毒微調資料
工具 schema 利用	打造針對已知工具定義的輸入

真實情境：開發者攻擊自家公司 AI 產品、具 API 存取與文件的研究人員、具部署知識的內部人員。

白箱存取

完整存取模型權重、架構、訓練資料與部署配置。

特性	細節
模型權重	完整存取
架構	完全已知
系統提示詞	已知
API 參數	全部可存取
訓練資料	可存取（對開源模型）
輸出細節	完整 logits、激活、注意力權重

額外攻擊（超越灰箱）：

攻擊類別	技術
基於梯度的攻擊	FGSM、PGD、GCG 後綴最佳化
激活分析	探測內部表徵
權重操控	直接修改模型行為
訓練資料萃取	成員推論、資料重建
機制分析	理解特定電路與特徵
後門植入	修改權重以植入觸發

真實情境：自架開源模型、AI 安全研究人員、具完整基礎設施存取的內部紅隊。

存取層級比較

能力	黑箱	灰箱	白箱
提示詞注入	是	是	是
越獄	手動	半自動化	完全自動化（GCG）
系統提示詞萃取	透過提示詞嘗試	可能已知	已知
基於梯度的攻擊	無	透過轉移	直接
激活探測	無	無	是
微調攻擊	無	若 API 可用	直接
資料萃取	僅探測	增強探測	成員推論
工具操控	若工具可發掘	已知工具 schema	完整工具存取

情境對應至威脅模型

因素	評估
存取層級	黑箱
目標	越獄、資料萃取、濫用
能力	標準 API/聊天存取、無限嘗試
限制	速率限制、無內部知識
主要攻擊	提示詞注入、行為測試、best-of-N
紅隊方法	自動化提示詞模糊測試、手動創造攻擊

因素	評估
存取層級	灰箱至白箱
目標	後門植入、資料外洩、破壞
能力	程式碼存取、部署知識、訓練資料存取
限制	必須避免偵測、可能有稽核軌跡
主要攻擊	投毒、後門觸發、提示詞樣板操控
紅隊方法	程式碼審查、訓練資料稽核、行為一致性測試

因素	評估
存取層級	變動——對元件可能有白箱
目標	透過共享元件廣泛入侵
能力	控制模型、函式庫或資料集
限制	必須通過整合測試、可能被偵測
主要攻擊	模型投毒、相依性操控、資料污染
紅隊方法	供應鏈稽核、模型來源驗證

AI vs. 傳統威脅建模

AI 威脅建模擴充傳統安全威脅建模但引入獨特考量：

面向	傳統安全	AI 安全
輸入驗證	良好定義（類型、範圍）	不明確定義（自然語言）
攻擊面	程式碼、網路、基礎設施	+ 模型行為、訓練資料
確定性	同輸入 → 同輸出	隨機輸出
信任邊界	清晰（auth、authz）	模糊（模型遵循指令，非規則）
漏洞定義	偏離規格	規格是機率性的
修補	程式碼變更、部署	重訓、微調、加護欄
測試	功能 + 滲透	+ 行為、對抗、對齊

AI 系統的 STRIDE

調適傳統 STRIDE 框架於 AI：

威脅	傳統	AI 特定
Spoofing	認證繞過	提示詞中角色冒用
Tampering	資料修改	訓練資料投毒、記憶體損壞
Repudiation	動作否認	隨機輸出使重現困難
Information Disclosure	資料洩漏	記憶化洩漏、系統提示詞萃取
Denial of Service	資源耗盡	符元成本攻擊、無限迴圈
Elevation of Privilege	未授權存取	提示詞注入 → 工具濫用

建立您的 AI 威脅模型

辨識系統
哪種部署模式？哪個模型？哪些工具與資料存取？參閱 AI 系統架構。
定義對手
外部使用者、內部、供應鏈？哪個存取層級對應現實？
列舉攻擊向量
給定存取層級，哪些攻擊可行？以上方表格作為起點。
評估影響
對每攻擊向量，最壞情況為何？資料洩漏、未授權動作、聲譽傷害？
優先
依可行性 × 影響排名向量。紅隊努力聚焦於高可行性、高影響情境。

參考文獻

"Threat Modeling: Designing for Security" - Shostack, Adam (2014) ——引入 STRIDE 的奠基書籍，調適於 AI 系統
"NIST AI Risk Management Framework (AI RMF 1.0)" - NIST (2023) ——辨識、評估、管理 AI 風險的聯邦框架
"MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE (2025) ——依存取層級組織的 ML 系統對抗技術威脅矩陣
"OWASP Top 10 for LLM Applications" - OWASP (2025) ——對應至 LLM 應用不同威脅模型情境的業界標準風險分類

Knowledge Check

某公司透過 API 將 GPT-4 部署為客服聊天機器人。外部攻擊者想透過聊天介面萃取客戶資料。哪個威脅模型最適切？

AI 威脅模型：白箱、黑箱與灰箱

為何威脅模型重要

三個存取層級

黑箱存取

灰箱存取

白箱存取

存取層級比較

情境對應至威脅模型

AI vs. 傳統威脅建模

AI 系統的 STRIDE

建立您的 AI 威脅模型

辨識系統

定義對手

列舉攻擊向量

評估影響

優先

相關主題

參考文獻

AI 威脅模型：白箱、黑箱與灰箱

為何威脅模型重要

三個存取層級

黑箱存取

灰箱存取

白箱存取

存取層級比較

情境對應至威脅模型

AI vs. 傳統威脅建模

AI 系統的 STRIDE

建立您的 AI 威脅模型

辨識系統

定義對手

列舉攻擊向量

評估影響

優先

相關主題

參考文獻

AI 威脅模型：白箱、黑箱與灰箱

辨識系統

定義對手

列舉攻擊向量

評估影響

優先

相關文章

AI 威脅模型：白箱、黑箱與灰箱

辨識系統

定義對手

列舉攻擊向量

評估影響

優先

相關文章