AI 事件嚴重性評分
對 AI 資安事件進行嚴重性評分的框架與方法論,整合 NIST AI RMF、MITRE ATLAS 與傳統 CVSS 方法。
概觀
當 AI 資安事件發生時,回應團隊必須做的第一個決定是:事件有多嚴重。此判斷驅動下游的一切:動員多少回應人員、通知哪些利害關係人、發送何種溝通、組織需多快行動。嚴重性評分失準雙向都有代價——高估浪費資源並造成告警疲勞,低估則可能讓關鍵事件不受控制地升級。
傳統嚴重性評分框架如 CVSS(通用漏洞評分系統)原為確定性系統中的軟體漏洞而設計。AI 事件引入這些框架未捕捉的面向:模型行為的機率性質、當模型服務多種使用情境時判定影響範圍的困難、訓練資料污染可能產生延遲且廣泛的影響,以及產出有害或令人尷尬輸出的 AI 系統所獨有的聲譽傷害。
本文提出一個 AI 調整後的嚴重性評分框架,建立在既有標準之上(NIST AI RMF、MITRE ATLAS、OWASP LLM Top 10 與 CVSS),並加入 AI 資安事件特有的面向。目標是為事件回應團隊提供可重現、可辯護的嚴重性分類方法論。
傳統評分對 AI 事件的侷限
CVSS 的缺口
通用漏洞評分系統(CVSS v4.0)沿著以下面向評估漏洞:攻擊向量、攻擊複雜度、所需權限、使用者互動,以及對機密性、完整性與可用性的衝擊。雖然這些面向與 AI 系統相關,CVSS 仍遺漏數個 AI 特定因子:
| CVSS 面向 | AI 缺口 |
|---|---|
| 攻擊向量 | 未區分提示詞層級、訓練層級與基礎設施層級攻擊 |
| 攻擊複雜度 | 無法捕捉以機率方式成功的 AI 漏洞利用的隨機性 |
| 所需權限 | 沒有「模型存取層級」的概念(API 使用者 vs. 微調存取 vs. 訓練管線存取) |
| 使用者互動 | 未建模「使用者」毫不知情的間接提示詞注入 |
| 機密性衝擊 | 未捕捉訓練資料萃取或模型權重盜竊 |
| 完整性衝擊 | 未區分暫態輸出操縱與持久性模型汙損 |
| 可用性衝擊 | 未捕捉模型退化(部分可用性損失) |
NIST AI RMF 脈絡
NIST 人工智慧風險管理框架(AI RMF 1.0,2023 年 1 月發布)透過四大核心功能(Govern、Map、Measure、Manage)提供更廣的風險管理結構。Measure 功能與嚴重性評分最相關,因其涵蓋 AI 風險的評估,包括:
- 潛在傷害的可能性與嚴重性
- 衝擊廣度(受影響的個人或系統數量)
- 傷害是否可逆
- AI 系統是否運作於安全關鍵情境
我們的嚴重性評分框架將這些 NIST 原則運作化為量化評分方法論。
AI 事件嚴重性框架 (AISF)
分數組成
AISF 透過評估七個面向產生 0.0 到 10.0 的綜合嚴重性分數,每個面向評分 0.0 到 10.0 並以可設定權重結合。
"""
AI Incident Severity Framework (AISF) scoring implementation.
"""
from dataclasses import dataclass
from enum import Enum
class SeverityLevel(Enum):
INFORMATIONAL = "informational" # 0.0 - 1.9
LOW = "low" # 2.0 - 3.9
MEDIUM = "medium" # 4.0 - 5.9
HIGH = "high" # 6.0 - 7.9
CRITICAL = "critical" # 8.0 - 10.0
@dataclass
class AISFDimension:
name: str
score: float
weight: float
rationale: str
@dataclass
class AISFScore:
dimensions: list[AISFDimension]
composite_score: float
severity_level: SeverityLevel
summary: str
def classify_severity(score: float) -> SeverityLevel:
if score < 2.0:
return SeverityLevel.INFORMATIONAL
if score < 4.0:
return SeverityLevel.LOW
if score < 6.0:
return SeverityLevel.MEDIUM
if score < 8.0:
return SeverityLevel.HIGH
return SeverityLevel.CRITICAL
def compute_aisf_score(dimensions: list[AISFDimension]) -> AISFScore:
total_weight = sum(d.weight for d in dimensions)
if total_weight == 0:
raise ValueError("Total weight must be positive")
composite = sum(d.score * d.weight for d in dimensions) / total_weight
composite = round(min(max(composite, 0.0), 10.0), 1)
return AISFScore(
dimensions=dimensions,
composite_score=composite,
severity_level=classify_severity(composite),
summary=_generate_summary(dimensions, composite),
)上述程式碼定義 SeverityLevel 列舉(INFORMATIONAL/LOW/MEDIUM/HIGH/CRITICAL 五級)、AISFDimension 單一面向資料類別與 AISFScore 完整評估結果,以及 classify_severity 依分數區間分類、compute_aisf_score 以加權平均計算綜合分數並產生摘要。
面向 1:攻擊精細度(權重:0.10)
衡量執行攻擊所需的技術精細度。越高的精細度暗示更有能力的威脅行為者,並可能是更具針對性的攻擊。
| 分數 | 描述 | 範例 |
|---|---|---|
| 1-2 | 瑣碎,無需專門知識 | 複製貼上已知的越獄提示詞 |
| 3-4 | 基本,使用公開可得工具 | 使用現成的對抗攻擊函式庫 |
| 5-6 | 中等,需要領域專業 | 為特定應用程式設計針對性提示詞注入 |
| 7-8 | 進階,需要 ML 研究技能 | 發展新型對抗擾動或後門觸發 |
| 9-10 | 專家級,國家級水準 | 需要供應鏈妥協的訓練階段攻擊 |
面向 2:資料敏感性曝光(權重:0.20)
衡量被曝露、萃取或妥協的資料的敏感度。此面向通常權重最高,因為資料曝光驅動法規、法律與聲譽衝擊。
| 分數 | 描述 | 範例 |
|---|---|---|
| 1-2 | 公開或非敏感資料 | 模型揭露已在公開訓練資料中的資訊 |
| 3-4 | 內部但非受監管資料 | 模型洩漏內部專案名稱或非敏感組態 |
| 5-6 | 受監管個人資料(PII) | 從訓練集萃取使用者資料 |
| 7-8 | 高度敏感個人或財務資料 | 含 SSN、醫療紀錄、財務資料的訓練資料 |
| 9-10 | 國家安全或安全關鍵資料 | 機密資訊曝露、安全系統妥協 |
面向 3:模型完整性衝擊(權重:0.20)
衡量模型完整性受損的程度——是否仍可信任其產出正確、安全的輸出。
| 分數 | 描述 | 範例 |
|---|---|---|
| 1-2 | 模型未變更,暫態輸出問題 | 單次異常回應,無持久影響 |
| 3-4 | 暫時行為修改 | 僅單次會話有效的越獄 |
| 5-6 | 持久但可逆的修改 | 被妥協的系統提示詞可被還原 |
| 7-8 | 偵測到權重層級修改 | 未授權微調改變了模型權重 |
| 9-10 | 不可逆或廣泛汙損 | 基礎模型權重中的後門、影響基礎模型的訓練資料投毒 |
面向 4:影響範圍(權重:0.15)
衡量受影響的使用者、系統或下游應用數量。
| 分數 | 描述 | 範例 |
|---|---|---|
| 1-2 | 單一使用者或會話 | 一位使用者找到越獄 |
| 3-4 | 小群使用者 | 影響特定租戶的臭蟲 |
| 5-6 | 顯著使用者族群 | 數千人使用的功能中的漏洞 |
| 7-8 | 組織範圍衝擊 | 服務所有內部應用的被妥協模型 |
| 9-10 | 跨組織或公眾衝擊 | 被投毒的基礎模型分發到多個組織 |
面向 5:可逆性(權重:0.15)
衡量事件影響的反轉難易度。
| 分數 | 描述 | 範例 |
|---|---|---|
| 1-2 | 立即可逆 | 重啟服務、清除快取 |
| 3-4 | 中度努力可逆 | 從已知良好的檢查點重新部署 |
| 5-6 | 顯著努力可逆 | 重新訓練模型元件、通知受影響使用者 |
| 7-8 | 部分不可逆 | 被萃取資料無法「反萃取」 |
| 9-10 | 完全不可逆 | 模型權重公開洩漏、訓練資料外洩 |
面向 6:法規與法律曝險(權重:0.10)
衡量事件的法規、法律與合規影響。
| 分數 | 描述 | 範例 |
|---|---|---|
| 1-2 | 無法規影響 | 內部工具,無受監管資料 |
| 3-4 | 輕微合規考量 | 應被記錄的日誌缺口 |
| 5-6 | 依現有框架需通報 | 可能需要 GDPR 違規通知 |
| 7-8 | 可能有重大法規動作 | 違反 EU AI Act 高風險系統 |
| 9-10 | 預期重大執法動作 | 潛在集體訴訟、法規調查 |
面向 7:聲譽衝擊(權重:0.10)
衡量事件公開後潛在的聲譽傷害。
| 分數 | 描述 | 範例 |
|---|---|---|
| 1-2 | 無外部可見度 | 內部事件,無使用者衝擊 |
| 3-4 | 輕微,侷限於受影響使用者 | 幾位使用者注意到的臭蟲 |
| 5-6 | 中度,可能受產業關注 | 安全研究者可能發表發現 |
| 7-8 | 預期顯著媒體報導 | 主流科技媒體報導 |
| 9-10 | 重大公眾爭議 | 頭版新聞、國會審視 |
實務中的評分
範例:提示詞注入資料外洩
以下 score_prompt_injection_exfiltration 函式示範對一起客服聊天機器人事件的評分:攻擊者透過 RAG 文件的間接提示詞注入萃取其他使用者的對話資料。評分範例為:
- 攻擊精細度:5.0(需 RAG 管線與輸出格式的知識)
- 資料敏感性:7.0(對話含 PII,姓名、電子郵件、帳戶細節)
- 模型完整性:3.0(模型本身未被修改,攻擊利用應用架構)
- 影響範圍:6.0(約 2,000 則對話可能被存取)
- 可逆性:8.0(外洩資料無法回收,必須通知受影響客戶)
- 法規曝險:7.0(觸發 GDPR 第 33 條 72 小時通知要求)
- 聲譽衝擊:6.0(客戶信任受損,可能有媒體報導)
預期綜合分數約為 5.8(MEDIUM-HIGH)。
範例:模型後門發現
score_model_backdoor_discovery 函式示範對一起金融詐欺偵測系統中第三方模型後門的評分。該後門使模型在特定模式出現時將某些詐欺交易分類為合法。評分範例:
- 攻擊精細度:9.0(訓練階段後門,需存取訓練管線或供應鏈)
- 資料敏感性:8.0(金融交易資料含 PII 與帳戶細節)
- 模型完整性:9.0(權重含持久後門,模型無法信任)
- 影響範圍:8.0(部署以來所有交易都可能受影響)
- 可逆性:6.0(可替換模型,但所有歷史預測須重新評估)
- 法規曝險:8.0(金融服務法規要求通報,可能因模型驗證不足面臨法規行動)
- 聲譽衝擊:7.0(AI 詐欺偵測信任受損)
將嚴重性評分整合到 IR 工作流程
自動化初始評分
對處理大量 AI 相關告警的組織而言,自動化初始評分可在人工審查前分類事件。自動評分器使用可觀察指標產出初步分數。
automated_initial_score(alert) 從告警資料產出自動化初步嚴重性分數。適用於初始分類,任何 MEDIUM 以上事件需人工審查。預期告警欄位包括:alert_type、users_affected、data_classification(public/internal/confidential/restricted)、model_modified、reversible、external_visibility。函式以對應表將資料分類映射到敏感度分數、依使用者數(≤1/≤100/≤1 萬/≤100 萬/更多)映射影響範圍分數、依模型修改狀態與可逆性指定對應分數。
升級矩陣
將 AISF 嚴重性層級映射到組織回應動作:
| 嚴重性 | 回應時間 | 通知 | 人力配置 | 高層簡報 |
|---|---|---|---|---|
| Informational | 下一個工作日 | 建立工單 | 值班審查 | 否 |
| Low | 8 小時 | 通知團隊負責人 | 指派分析師 | 否 |
| Medium | 4 小時 | 啟動 IR 團隊 | 專責團隊 | 每日摘要 |
| High | 1 小時 | 通知 CISO | 完整 IR 團隊 | 立即 |
| Critical | 15 分鐘 | 通知 C 級主管與董事會 | 全員動員、外部支援 | 持續 |
分數演進追蹤
隨調查進行與新資訊浮現,嚴重性分數應被重新評估。追蹤分數隨時間的變化以記錄團隊對事件的理解如何演進。
ScoreRevision 資料類別記錄時間戳、分數、分析師與理由。track_severity_evolution(revisions) 分析嚴重性分數在調查期間的演進:初始分數、最終分數、峰值分數、分數差、修訂次數、升級次數(分數上升)、降級次數(分數下降)。顯著分數變化指出初始假設隨新證據浮現而被修訂。
對應既有框架
MITRE ATLAS 整合
ATLAS 技術可提供攻擊精細度面向的資訊。將觀察到的技術對應到其複雜度:
- 初始存取技術(AML.TA0000):通常較低精細度(2-5)
- ML 攻擊佈署(AML.TA0001):中度精細度(4-7)
- ML 模型存取(AML.TA0003):依方法差異大(3-9)
OWASP LLM Top 10 整合
OWASP LLM Top 10(2025 版)提供可校準 AISF 評分的風險評級。例如 LLM01(提示詞注入)在 OWASP 中具有固有的高衝擊評級,此應反映在 AISF 的模型完整性與資料敏感性面向中。
EU AI Act 風險類別
對於依 EU AI Act 運營的組織,嚴重性評分也應對應到該法案的風險類別(不可接受、高風險、有限風險、最小風險)。涉及高風險 AI 系統的事件在 AISF 框架中自動獲得 MEDIUM 的最低嚴重性下限。
參考資料
- NIST. (2023). Artificial Intelligence Risk Management Framework (AI RMF 1.0). NIST AI 100-1. https://doi.org/10.6028/NIST.AI.100-1
- FIRST. (2024). Common Vulnerability Scoring System v4.0 Specification. https://www.first.org/cvss/v4.0/specification-document
- MITRE ATLAS. (2024). Adversarial Threat Landscape for Artificial Intelligence Systems. https://atlas.mitre.org/
- OWASP. (2025). OWASP Top 10 for Large Language Model Applications. https://owasp.org/www-project-top-10-for-large-language-model-applications/