超越 ASR 之紅隊指標
Advanced4 min readUpdated 2026-03-13
AI 紅隊之完整指標方法論,超越攻擊成功率:嚴重性加權評分、防禦深度指標、覆蓋分析,與適合利害關係人之報告框架。
攻擊成功率(ASR)是 AI 紅隊中最常被報告之指標,但其訴說危險之不完整故事。5% 之 ASR 可能意指五次低嚴重性提示洩漏,或五次關鍵資料外洩。成熟之紅隊計畫需更豐富之指標框架。
指標框架
層級 1:攻擊結果指標
| 指標 | 定義 | 公式 | 使用情境 |
|---|---|---|---|
| ASR(原始) | 成功攻擊之百分比 | 成功攻擊 / 總嘗試 | 基線比較 |
| 加權 ASR | 以攻擊難度加權之 ASR | Sum(success * difficulty_weight) / Sum(difficulty_weight) | 為測試難度正規化 |
| 類別 ASR | 按攻擊類別分解之 ASR | 每類別成功 / 每類別總數 | 辨識弱類別 |
| 新穎 ASR | 對前所未見攻擊模式之 ASR | 新穎成功 / 新穎嘗試 | 量測對新攻擊之穩健度 |
層級 2:嚴重性指標
| 指標 | 定義 | 評分 |
|---|---|---|
| 風險加權分數 | 納入嚴重性之聚合分數 | Sum(severity_weight * success) |
| 關鍵失效率 | 最高嚴重性成功攻擊之比率 | 關鍵成功 / 總嘗試 |
| 傷害潛能指數 | 若成功攻擊被部署之估計現實世界傷害 | 定性尺度:低/中/高/關鍵 |
| 爆炸半徑 | 可能受成功攻擊影響之使用者或系統數 | 估計使用者數或系統範圍 |
嚴重性加權尺度
嚴重性等級 權重 描述
─────────────────────────────────────────────────────────
Critical 10 資料外洩、程式碼執行、
完全安全繞過
High 7 詳細有害內容生成、
PII 揭露、工具濫用
Medium 4 部分安全繞過、系統提示
洩漏、輕微政策違規
Low 2 輕微資訊揭露、
不一致之拒絕行為
Informational 1 行為觀察、無直接
安全影響
防禦深度指標
量測分層防禦
多數 AI 系統採用多重防禦層。指標應捕捉攻擊穿透多深,而非僅是否最終成功。
| 指標 | 量測什麼 | 為何重要 |
|---|---|---|
| 層穿透深度 | 攻擊於被停前繞過多少防禦層 | 於第 1 層停止攻擊之系統較依賴第 3 層者更穩健 |
| 防禦繞過率(每層) | 對每個個別防禦層之成功率 | 辨識防禦鏈中之最弱環節 |
| 單一失效點指數 | 移除任一單一防禦層是否造就關鍵失效 | 凸顯架構脆弱度 |
| 恢復率 | 於部分繞過後系統多常自我修正 | 量測縱深防禦韌性 |
防禦層模型
攻擊 → [輸入過濾器] → [系統提示] → [模型安全] → [輸出過濾器] → 回應
↓ ↓ ↓ ↓
第 1 層繞過 第 2 層繞過 第 3 層繞過 第 4 層繞過
↓ ↓ ↓ ↓
追蹤比率 追蹤比率 追蹤比率 追蹤比率
覆蓋指標
攻擊面覆蓋
| 維度 | 如何量測 | 目標 |
|---|---|---|
| 類別覆蓋 | 測試之 OWASP LLM Top 10 類別百分比 | 完整評估為 100% |
| 技術覆蓋 | 嘗試之已知攻擊技術百分比 | 徹底委任為 80%+ |
| 模態覆蓋 | 測試之輸入模態(文字、圖像、音訊、檔案) | 所有支援之模態 |
| 語言覆蓋 | 為安全一致性測試之語言 | 最低前 10 種使用者語言 |
| 脈絡覆蓋 | 測試之單輪、多輪、系統提示變化 | 所有相關互動模式 |
覆蓋缺口分析
# 覆蓋追蹤結構
coverage = {
"categories_tested": 9,
"categories_total": 10, # OWASP LLM Top 10
"coverage_pct": 90,
"gaps": ["LLM10: Unbounded Consumption"],
"techniques_by_category": {
"LLM01_Prompt_Injection": {
"tested": ["direct", "indirect", "stored", "multi-turn"],
"not_tested": ["multi-language", "encoding_based"],
"coverage_pct": 67
}
}
}時序指標
隨時間追蹤
| 指標 | 描述 | 警告門檻 |
|---|---|---|
| ASR 趨勢 | 連續評估之 ASR | 自基線增加 > 5% |
| 回歸計數 | 先前已修復之漏洞重現 | 關鍵/高發現之任何回歸 |
| 平均修復時間 | 自發現至補救之平均時間 | 依嚴重性變化 |
| 防禦改善率 | 防禦層改善之速率 | 應趨向正向 |
| 新漏洞發現率 | 每評估週期之新穎發現 | 預期趨向下降 |
回歸偵測
維護回歸測試套件
每個已確認之發現應產生回歸測試提示。加入自動化評估套件。
於每次變更執行回歸測試
模型更新、系統提示變更,與護欄修改應觸發回歸測試。
於回歸發出警報
任何先前已修復之發現重現即為回歸。這些應阻擋部署。
追蹤回歸率
高回歸率指示補救過程之系統性問題,非僅個別修復。
適合利害關係人之報告
按受眾之指標
| 受眾 | 重要指標 | 呈現格式 |
|---|---|---|
| 工程團隊 | 類別 ASR、每層繞過率、具體失效範例、回歸列表 | 詳細表格、程式碼範例、重現步驟 |
| 安全領導層 | 風險加權分數、關鍵失效率、覆蓋缺口、隨時間趨勢 | 具趨勢線之儀表板、熱圖 |
| 執行長/董事會 | 整體風險態勢(紅/黃/綠)、與業界基準比較、業務影響 | 一頁摘要、3-5 個關鍵數字 |
| 合規/法務 | 框架覆蓋(OWASP、NIST)、法規要求映射、稽核軌跡 | 合規矩陣、證據包 |
執行層儀表板
┌─────────────────────────────────────────────────────┐
│ AI Security Posture — March 2026 │
│ │
│ Overall Risk: ██████░░░░ MEDIUM │
│ │
│ Critical Findings: 2 (↓ from 5 last quarter) │
│ Attack Success Rate: 8.3% (↓ from 12.1%) │
│ Coverage Score: 87% (↑ from 72%) │
│ Regression Rate: 3% (↓ from 11%) │
│ │
│ Top Risk: Agent tool abuse (3 critical findings) │
│ Biggest Improvement: Prompt injection (ASR 4%→1%) │
└─────────────────────────────────────────────────────┘
實作框架
指標蒐集檢核表
| 資料點 | 何時蒐集 | 儲存 |
|---|---|---|
| 攻擊提示與回應 | 每次評估嘗試 | 結果儲存 |
| Judge 裁決與信心 | 每次評估嘗試 | 結果儲存 |
| 嚴重性分類 | 每次成功攻擊 | 發現資料庫 |
| 防禦層穿透 | 當有儀表 | 每嘗試 metadata |
| 類別與技術標籤 | 每次評估嘗試 | 提示 metadata |
| 模型與組態版本 | 每次評估執行 | 執行 metadata |
相關主題
- AI 安全基準與評估 —— 基準選擇與評估方法論
- 打造評估 Harness —— 蒐集指標之基礎設施
- AI 紅隊之統計嚴謹 —— 統計基礎
- 執行層摘要寫作 —— 向領導層溝通指標
參考資料
- "Beyond Attack Success Rate: A Comprehensive Evaluation Framework for AI Red Teaming" - Anthropic(2024)- 為 AI 安全評估之多維指標研究
- "OWASP Top 10 for LLM Applications" - OWASP Foundation(2025)- 於指標框架中作為覆蓋維度之漏洞類別
- "NIST AI Risk Management Framework (AI RMF 1.0)" - National Institute of Standards and Technology(2023)- 告知紅隊指標設計之風險量測功能(Measure 子類別)
- "MLCommons AI Safety Benchmark v0.5" - MLCommons(2024)- AI 安全評估之標準化評分方法論
Knowledge Check
某紅隊評估發現 ASR 為 3%,含兩個關鍵發現(經工具濫用之資料外洩),另一次委任之 ASR 為 18%,含所有低嚴重性發現(不一致之拒絕訊息)。哪次委任代表較高風險?