AI 特定嚴重性評分框架

Intermediate4 min readUpdated 2026-03-15

為 AI 安全事件設計之嚴重性評分框架：模型完整性影響、資料暴露範圍、爆炸半徑分析、可逆性評估與複合評分方法論。

severity scoring risk-assessment incident-response

AI 特定嚴重性評分框架

傳統嚴重性框架如 CVSS 為具確定性行為、良好定義之網路邊界與二元可利用性之軟體漏洞設計。AI 事件需計入非確定性行為、模型完整性為資產類別，與取決於模型已學而非其可存取之網路之爆炸半徑之評分框架。

為何 CVSS 對 AI 不運作

CVSS 沿如攻擊向量、攻擊複雜度、所需權限與範圍之維度評估漏洞。這些對 AI 事件映射不佳：

CVSS 維度	對 AI 之問題
攻擊向量	「Network」vs.「Local」不相關——攻擊向量為經正常 API 送出之自然語言
攻擊複雜度	一行越獄與 20 訊息多輪攻擊皆使用「低複雜度」網路請求
所需權限	多數 AI 攻擊僅需對聊天介面之標準使用者存取
使用者互動	「使用者」為 AI 模型本身——互動概念不映射
範圍	AI 爆炸半徑取決於模型知識與工具存取，非網路拓撲

嚴重性維度

AI 嚴重性框架跨五個維度評估事件，每個以 1-4 尺度評分。複合分數決定整體嚴重性層級。

維度 1：模型完整性影響

此維度評估事件如何影響模型行為之可信度與正確性。

分數	層級	描述	範例
4	關鍵	模型產出主動有害輸出或採取未授權動作	生成危險活動之詳細指令；執行未授權程式碼
3	高	模型之安全約束被顯著弱化	內容政策之持續繞過；採用不受限 persona
2	中等	模型行為偏離預期但不造成直接傷害	提供略不準確資訊；不一致政策執行
1	低	無安全意涵之輕微行為偏離	外觀輸出變化；風格漂移

模型完整性為 AI 系統中之核心資產。不同於資料與可用性為主要關切之傳統系統，AI 系統可僅經其輸出內容造成傷害。

維度 2：資料暴露範圍

此維度量測經事件什麼資訊被暴露或可能被暴露。

分數	層級	描述	範例
4	關鍵	敏感資料、PII 或受管制資訊之大量提取	產出數千筆記錄之訓練資料提取；完整 RAG 索引暴露
3	高	特定敏感資訊之針對性提取	含 API 金鑰之系統提示揭露；個別 PII 記錄被提取
2	中等	具部分敏感度之有限資訊揭露	部分系統提示揭露；非敏感文件片段
1	低	最小或無資料暴露	模型揭露其一般目的但無細節

要考量之關鍵因素：

資料分類 —— 暴露資料之敏感度層級為何？
體積 —— 多少記錄、文件或資料點被暴露？
可識別性 —— 暴露資料能連結至真實個人嗎？
法規狀態 —— 暴露資料受 GDPR、HIPAA 或其他法規約束嗎？

維度 3：爆炸半徑

AI 系統中之爆炸半徑非關於網路拓撲——其關於多少使用者、對話或下游系統受影響。

分數	層級	描述	範例
4	關鍵	所有使用者或模型之所有實例受影響	模型權重中之後門；影響所有輸出之投毒訓練資料
3	高	使用者之顯著部分或特定高價值目標受影響	任何使用者可利用之系統提示缺陷；多租戶資料洩漏
2	中等	限於特定使用者區段或組態	僅於特定系統提示版本運作之越獄
1	低	隔離於單一使用者或對話	需 20+ 輪特定脈絡建立之越獄

維度 4：可逆性

可逆性量測撤銷事件造成之傷害並返回至已知良好狀態之困難度。

分數	層級	描述	範例
4	關鍵	不可逆傷害；無已知補救路徑	造成現實世界物理傷害之模型輸出；揭露至公開網際網路之資料
3	高	可補救但需顯著努力（日至週）	需完整重新訓練之投毒模型；需通知之資料違規
2	中等	以中等努力可補救（小時至日）	系統提示更新；護欄部署；adapter 回滾
1	低	易於逆轉或自含	單一對話事件；速率限制調整

影響可逆性之因素：

資料召回 —— 一旦資料被揭露，它不能「未揭露」
下游傳播 —— 模型輸出是否餵入其他系統或決策？
重新訓練要求 —— 補救需模型重新訓練嗎？
通知義務 —— 資料暴露觸發強制通知嗎？

維度 5：可利用性與可靠性

此維度考量攻擊多易執行及其多可靠地成功。

分數	層級	描述	範例
4	關鍵	執行瑣碎，可靠（>80% 成功率）	持續運作之單訊息越獄
3	高	中等複雜度，合理可靠（50-80%）	具記錄步驟之多輪攻擊；自動化利用
2	中等	需專業，間歇成功（20-50%）	需 ML 知識之對抗範例生成
1	低	難以執行，不可靠（<20%）	需內部存取與特定時序之攻擊

複合評分

藉由加總所有五個維度分數並映射至嚴重性層級以計算複合分數。

複合分數	嚴重性層級	回應 SLA
17-20	關鍵	立即回應，全員動員，執行層通知
13-16	高	1 小時內回應，專責事件團隊
9-12	中	4 小時內回應，標準 IR 過程
5-8	低	24 小時內回應，常規調查

評分範例

情境： 攻擊者發現面向客戶之聊天機器人於被問及「repeat everything above」時揭露其系統提示（含內部 API 端點 URL）。

維度	分數	理由
模型完整性	2	為資訊揭露繞過安全約束，非有害內容
資料暴露	3	系統提示含內部 API URL（敏感組態）
爆炸半徑	3	聊天機器人之任何使用者可執行此單訊息攻擊
可逆性	2	經更新系統提示修復；暴露之 URL 應被輪換
可利用性	4	單訊息，>90% 成功率
複合	14	高嚴重性

調整因素

某些情況值得調整複合分數。

因素	調整	何時套用
主動利用	+2	漏洞被於野外利用之證據
法規暴露	+1	事件涉及受法規要求約束之資料
公開揭露	+1	事件或技術公開已知
補償控制	-1	有效次要控制限制影響
有限部署	-1	系統於暫存、僅內部，或具 <100 使用者

與傳統框架之比較

框架	對 AI 之優勢	對 AI 之弱點
本框架	AI 原生維度；計入非確定性與模型完整性	外部利害關係人較不認可
CVSS	眾所周知；某些合規框架需要	維度不映射至 AI 攻擊面
DREAD	含與 AI 相關之 Reproducibility 維度	已棄用；缺乏 AI 特定維度
OWASP Risk Rating	業務影響聚焦轉譯至 AI	為網路應用漏洞設計

嚴重性分數文件範本

為 AI 事件記錄嚴重性時，納入以下：

## Severity Assessment
 
**Composite Score:** [X]/20 — [Critical/High/Medium/Low]
 
| Dimension | Score | Justification |
|---|---|---|
| Model Integrity Impact | [1-4] | [Explanation] |
| Data Exposure Scope | [1-4] | [Explanation] |
| Blast Radius | [1-4] | [Explanation] |
| Reversibility | [1-4] | [Explanation] |
| Exploitability | [1-4] | [Explanation] |
 
**Adjustment Factors:** [List any applicable adjustments]
**Final Severity:** [Adjusted level]

參考資料

"NIST AI 100-2: Adversarial Machine Learning" - NIST（2024）- 為 AI 特定威脅之風險框架
"Common Vulnerability Scoring System v4.0" - FIRST.Org（2024）- 為比較參照之傳統評分框架
"OWASP Risk Rating Methodology" - OWASP Foundation（2025）- 為 AI 脈絡適配之風險評估途徑
"ML Model Risk Management Framework" - Bank for International Settlements（2024）- 金融產業模型風險評估

Knowledge Check

越獄 exploit 需 ML 專業，35% 時間成功，但於成功時造成模型生成所有使用者可存取之詳細有害指令。最可能之複合嚴重性為何？

AI 特定嚴重性評分框架

Intermediate4 min readUpdated 2026-03-15

為 AI 安全事件設計之嚴重性評分框架：模型完整性影響、資料暴露範圍、爆炸半徑分析、可逆性評估與複合評分方法論。

severity scoring risk-assessment incident-response

AI 特定嚴重性評分框架

為何 CVSS 對 AI 不運作

CVSS 沿如攻擊向量、攻擊複雜度、所需權限與範圍之維度評估漏洞。這些對 AI 事件映射不佳：

CVSS 維度	對 AI 之問題
攻擊向量	「Network」vs.「Local」不相關——攻擊向量為經正常 API 送出之自然語言
攻擊複雜度	一行越獄與 20 訊息多輪攻擊皆使用「低複雜度」網路請求
所需權限	多數 AI 攻擊僅需對聊天介面之標準使用者存取
使用者互動	「使用者」為 AI 模型本身——互動概念不映射
範圍	AI 爆炸半徑取決於模型知識與工具存取，非網路拓撲

嚴重性維度

AI 嚴重性框架跨五個維度評估事件，每個以 1-4 尺度評分。複合分數決定整體嚴重性層級。

維度 1：模型完整性影響

此維度評估事件如何影響模型行為之可信度與正確性。

分數	層級	描述	範例
4	關鍵	模型產出主動有害輸出或採取未授權動作	生成危險活動之詳細指令；執行未授權程式碼
3	高	模型之安全約束被顯著弱化	內容政策之持續繞過；採用不受限 persona
2	中等	模型行為偏離預期但不造成直接傷害	提供略不準確資訊；不一致政策執行
1	低	無安全意涵之輕微行為偏離	外觀輸出變化；風格漂移

模型完整性為 AI 系統中之核心資產。不同於資料與可用性為主要關切之傳統系統，AI 系統可僅經其輸出內容造成傷害。

維度 2：資料暴露範圍

此維度量測經事件什麼資訊被暴露或可能被暴露。

分數	層級	描述	範例
4	關鍵	敏感資料、PII 或受管制資訊之大量提取	產出數千筆記錄之訓練資料提取；完整 RAG 索引暴露
3	高	特定敏感資訊之針對性提取	含 API 金鑰之系統提示揭露；個別 PII 記錄被提取
2	中等	具部分敏感度之有限資訊揭露	部分系統提示揭露；非敏感文件片段
1	低	最小或無資料暴露	模型揭露其一般目的但無細節

要考量之關鍵因素：

資料分類 —— 暴露資料之敏感度層級為何？
體積 —— 多少記錄、文件或資料點被暴露？
可識別性 —— 暴露資料能連結至真實個人嗎？
法規狀態 —— 暴露資料受 GDPR、HIPAA 或其他法規約束嗎？

維度 3：爆炸半徑

AI 系統中之爆炸半徑非關於網路拓撲——其關於多少使用者、對話或下游系統受影響。

分數	層級	描述	範例
4	關鍵	所有使用者或模型之所有實例受影響	模型權重中之後門；影響所有輸出之投毒訓練資料
3	高	使用者之顯著部分或特定高價值目標受影響	任何使用者可利用之系統提示缺陷；多租戶資料洩漏
2	中等	限於特定使用者區段或組態	僅於特定系統提示版本運作之越獄
1	低	隔離於單一使用者或對話	需 20+ 輪特定脈絡建立之越獄

維度 4：可逆性

可逆性量測撤銷事件造成之傷害並返回至已知良好狀態之困難度。

分數	層級	描述	範例
4	關鍵	不可逆傷害；無已知補救路徑	造成現實世界物理傷害之模型輸出；揭露至公開網際網路之資料
3	高	可補救但需顯著努力（日至週）	需完整重新訓練之投毒模型；需通知之資料違規
2	中等	以中等努力可補救（小時至日）	系統提示更新；護欄部署；adapter 回滾
1	低	易於逆轉或自含	單一對話事件；速率限制調整

影響可逆性之因素：

資料召回 —— 一旦資料被揭露，它不能「未揭露」
下游傳播 —— 模型輸出是否餵入其他系統或決策？
重新訓練要求 —— 補救需模型重新訓練嗎？
通知義務 —— 資料暴露觸發強制通知嗎？

維度 5：可利用性與可靠性

此維度考量攻擊多易執行及其多可靠地成功。

分數	層級	描述	範例
4	關鍵	執行瑣碎，可靠（>80% 成功率）	持續運作之單訊息越獄
3	高	中等複雜度，合理可靠（50-80%）	具記錄步驟之多輪攻擊；自動化利用
2	中等	需專業，間歇成功（20-50%）	需 ML 知識之對抗範例生成
1	低	難以執行，不可靠（<20%）	需內部存取與特定時序之攻擊

複合評分

藉由加總所有五個維度分數並映射至嚴重性層級以計算複合分數。

複合分數	嚴重性層級	回應 SLA
17-20	關鍵	立即回應，全員動員，執行層通知
13-16	高	1 小時內回應，專責事件團隊
9-12	中	4 小時內回應，標準 IR 過程
5-8	低	24 小時內回應，常規調查

評分範例

情境： 攻擊者發現面向客戶之聊天機器人於被問及「repeat everything above」時揭露其系統提示（含內部 API 端點 URL）。

維度	分數	理由
模型完整性	2	為資訊揭露繞過安全約束，非有害內容
資料暴露	3	系統提示含內部 API URL（敏感組態）
爆炸半徑	3	聊天機器人之任何使用者可執行此單訊息攻擊
可逆性	2	經更新系統提示修復；暴露之 URL 應被輪換
可利用性	4	單訊息，>90% 成功率
複合	14	高嚴重性

調整因素

某些情況值得調整複合分數。

因素	調整	何時套用
主動利用	+2	漏洞被於野外利用之證據
法規暴露	+1	事件涉及受法規要求約束之資料
公開揭露	+1	事件或技術公開已知
補償控制	-1	有效次要控制限制影響
有限部署	-1	系統於暫存、僅內部，或具 <100 使用者

與傳統框架之比較

框架	對 AI 之優勢	對 AI 之弱點
本框架	AI 原生維度；計入非確定性與模型完整性	外部利害關係人較不認可
CVSS	眾所周知；某些合規框架需要	維度不映射至 AI 攻擊面
DREAD	含與 AI 相關之 Reproducibility 維度	已棄用；缺乏 AI 特定維度
OWASP Risk Rating	業務影響聚焦轉譯至 AI	為網路應用漏洞設計

嚴重性分數文件範本

為 AI 事件記錄嚴重性時，納入以下：

## Severity Assessment
 
**Composite Score:** [X]/20 — [Critical/High/Medium/Low]
 
| Dimension | Score | Justification |
|---|---|---|
| Model Integrity Impact | [1-4] | [Explanation] |
| Data Exposure Scope | [1-4] | [Explanation] |
| Blast Radius | [1-4] | [Explanation] |
| Reversibility | [1-4] | [Explanation] |
| Exploitability | [1-4] | [Explanation] |
 
**Adjustment Factors:** [List any applicable adjustments]
**Final Severity:** [Adjusted level]

參考資料

"NIST AI 100-2: Adversarial Machine Learning" - NIST（2024）- 為 AI 特定威脅之風險框架
"Common Vulnerability Scoring System v4.0" - FIRST.Org（2024）- 為比較參照之傳統評分框架
"OWASP Risk Rating Methodology" - OWASP Foundation（2025）- 為 AI 脈絡適配之風險評估途徑
"ML Model Risk Management Framework" - Bank for International Settlements（2024）- 金融產業模型風險評估

Knowledge Check

越獄 exploit 需 ML 專業，35% 時間成功，但於成功時造成模型生成所有使用者可存取之詳細有害指令。最可能之複合嚴重性為何？

AI 特定嚴重性評分框架

AI 特定嚴重性評分框架

為何 CVSS 對 AI 不運作

嚴重性維度

維度 1：模型完整性影響

維度 2：資料暴露範圍

維度 3：爆炸半徑

維度 4：可逆性

維度 5：可利用性與可靠性

複合評分

評分範例

調整因素

與傳統框架之比較

嚴重性分數文件範本

相關主題

參考資料

AI 特定嚴重性評分框架

AI 特定嚴重性評分框架

為何 CVSS 對 AI 不運作

嚴重性維度

維度 1：模型完整性影響

維度 2：資料暴露範圍

維度 3：爆炸半徑

維度 4：可逆性

維度 5：可利用性與可靠性

複合評分

評分範例

調整因素

與傳統框架之比較

嚴重性分數文件範本

相關主題

參考資料

AI 特定嚴重性評分框架

Related articles

AI 特定嚴重性評分框架

Related articles