超越 ASR 之紅隊指標

Advanced4 min readUpdated 2026-03-13

AI 紅隊之完整指標方法論，超越攻擊成功率：嚴重性加權評分、防禦深度指標、覆蓋分析，與適合利害關係人之報告框架。

metrics methodology evaluation reporting

攻擊成功率（ASR）是 AI 紅隊中最常被報告之指標，但其訴說危險之不完整故事。5% 之 ASR 可能意指五次低嚴重性提示洩漏，或五次關鍵資料外洩。成熟之紅隊計畫需更豐富之指標框架。

指標框架

層級 1：攻擊結果指標

指標	定義	公式	使用情境
ASR（原始）	成功攻擊之百分比	成功攻擊 / 總嘗試	基線比較
加權 ASR	以攻擊難度加權之 ASR	Sum(success * difficulty_weight) / Sum(difficulty_weight)	為測試難度正規化
類別 ASR	按攻擊類別分解之 ASR	每類別成功 / 每類別總數	辨識弱類別
新穎 ASR	對前所未見攻擊模式之 ASR	新穎成功 / 新穎嘗試	量測對新攻擊之穩健度

層級 2：嚴重性指標

指標	定義	評分
風險加權分數	納入嚴重性之聚合分數	Sum(severity_weight * success)
關鍵失效率	最高嚴重性成功攻擊之比率	關鍵成功 / 總嘗試
傷害潛能指數	若成功攻擊被部署之估計現實世界傷害	定性尺度：低／中／高／關鍵
爆炸半徑	可能受成功攻擊影響之使用者或系統數	估計使用者數或系統範圍

嚴重性加權尺度

嚴重性等級        權重      描述
─────────────────────────────────────────────────────────
Critical          10        資料外洩、程式碼執行、
                            完全安全繞過
High               7        詳細有害內容生成、
                            PII 揭露、工具濫用
Medium             4        部分安全繞過、系統提示
                            洩漏、輕微政策違規
Low                2        輕微資訊揭露、
                            不一致之拒絕行為
Informational      1        行為觀察、無直接
                            安全影響

防禦深度指標

量測分層防禦

多數 AI 系統採用多重防禦層。指標應捕捉攻擊穿透多深，而非僅是否最終成功。

指標	量測什麼	為何重要
層穿透深度	攻擊於被停前繞過多少防禦層	於第 1 層停止攻擊之系統較依賴第 3 層者更穩健
防禦繞過率（每層）	對每個個別防禦層之成功率	辨識防禦鏈中之最弱環節
單一失效點指數	移除任一單一防禦層是否造就關鍵失效	凸顯架構脆弱度
恢復率	於部分繞過後系統多常自我修正	量測縱深防禦韌性

防禦層模型

攻擊 → [輸入過濾器] → [系統提示] → [模型安全] → [輸出過濾器] → 回應
              ↓                ↓              ↓                ↓
         第 1 層繞過      第 2 層繞過    第 3 層繞過      第 4 層繞過
              ↓                ↓              ↓                ↓
         追蹤比率         追蹤比率       追蹤比率         追蹤比率

覆蓋指標

攻擊面覆蓋

維度	如何量測	目標
類別覆蓋	測試之 OWASP LLM Top 10 類別百分比	完整評估為 100%
技術覆蓋	嘗試之已知攻擊技術百分比	徹底委任為 80%+
模態覆蓋	測試之輸入模態（文字、圖像、音訊、檔案）	所有支援之模態
語言覆蓋	為安全一致性測試之語言	最低前 10 種使用者語言
脈絡覆蓋	測試之單輪、多輪、系統提示變化	所有相關互動模式

覆蓋缺口分析

# 覆蓋追蹤結構
coverage = {
    "categories_tested": 9,
    "categories_total": 10,  # OWASP LLM Top 10
    "coverage_pct": 90,
    "gaps": ["LLM10: Unbounded Consumption"],
    "techniques_by_category": {
        "LLM01_Prompt_Injection": {
            "tested": ["direct", "indirect", "stored", "multi-turn"],
            "not_tested": ["multi-language", "encoding_based"],
            "coverage_pct": 67
        }
    }
}

時序指標

隨時間追蹤

指標	描述	警告門檻
ASR 趨勢	連續評估之 ASR	自基線增加 > 5%
回歸計數	先前已修復之漏洞重現	關鍵／高發現之任何回歸
平均修復時間	自發現至補救之平均時間	依嚴重性變化
防禦改善率	防禦層改善之速率	應趨向正向
新漏洞發現率	每評估週期之新穎發現	預期趨向下降

回歸偵測

維護回歸測試套件
每個已確認之發現應產生回歸測試提示。加入自動化評估套件。
於每次變更執行回歸測試
模型更新、系統提示變更，與護欄修改應觸發回歸測試。
於回歸發出警報
任何先前已修復之發現重現即為回歸。這些應阻擋部署。
追蹤回歸率
高回歸率指示補救過程之系統性問題，非僅個別修復。

適合利害關係人之報告

按受眾之指標

受眾	重要指標	呈現格式
工程團隊	類別 ASR、每層繞過率、具體失效範例、回歸列表	詳細表格、程式碼範例、重現步驟
安全領導層	風險加權分數、關鍵失效率、覆蓋缺口、隨時間趨勢	具趨勢線之儀表板、熱圖
執行長／董事會	整體風險態勢（紅／黃／綠）、與業界基準比較、業務影響	一頁摘要、3-5 個關鍵數字
合規／法務	框架覆蓋（OWASP、NIST）、法規要求映射、稽核軌跡	合規矩陣、證據包

執行層儀表板

┌─────────────────────────────────────────────────────┐
│  AI Security Posture — March 2026                    │
│                                                     │
│  Overall Risk:  ██████░░░░  MEDIUM                  │
│                                                     │
│  Critical Findings:  2 (↓ from 5 last quarter)      │
│  Attack Success Rate: 8.3% (↓ from 12.1%)          │
│  Coverage Score:      87% (↑ from 72%)              │
│  Regression Rate:     3% (↓ from 11%)               │
│                                                     │
│  Top Risk: Agent tool abuse (3 critical findings)   │
│  Biggest Improvement: Prompt injection (ASR 4%→1%)  │
└─────────────────────────────────────────────────────┘

實作框架

指標蒐集檢核表

資料點	何時蒐集	儲存
攻擊提示與回應	每次評估嘗試	結果儲存
Judge 裁決與信心	每次評估嘗試	結果儲存
嚴重性分類	每次成功攻擊	發現資料庫
防禦層穿透	當有儀表	每嘗試 metadata
類別與技術標籤	每次評估嘗試	提示 metadata
模型與組態版本	每次評估執行	執行 metadata

參考資料

"Beyond Attack Success Rate: A Comprehensive Evaluation Framework for AI Red Teaming" - Anthropic（2024）- 為 AI 安全評估之多維指標研究
"OWASP Top 10 for LLM Applications" - OWASP Foundation（2025）- 於指標框架中作為覆蓋維度之漏洞類別
"NIST AI Risk Management Framework (AI RMF 1.0)" - National Institute of Standards and Technology（2023）- 告知紅隊指標設計之風險量測功能（Measure 子類別）
"MLCommons AI Safety Benchmark v0.5" - MLCommons（2024）- AI 安全評估之標準化評分方法論

Knowledge Check

某紅隊評估發現 ASR 為 3%，含兩個關鍵發現（經工具濫用之資料外洩），另一次委任之 ASR 為 18%，含所有低嚴重性發現（不一致之拒絕訊息）。哪次委任代表較高風險？

超越 ASR 之紅隊指標

Advanced4 min readUpdated 2026-03-13

AI 紅隊之完整指標方法論，超越攻擊成功率：嚴重性加權評分、防禦深度指標、覆蓋分析，與適合利害關係人之報告框架。

metrics methodology evaluation reporting

指標框架

層級 1：攻擊結果指標

指標	定義	公式	使用情境
ASR（原始）	成功攻擊之百分比	成功攻擊 / 總嘗試	基線比較
加權 ASR	以攻擊難度加權之 ASR	Sum(success * difficulty_weight) / Sum(difficulty_weight)	為測試難度正規化
類別 ASR	按攻擊類別分解之 ASR	每類別成功 / 每類別總數	辨識弱類別
新穎 ASR	對前所未見攻擊模式之 ASR	新穎成功 / 新穎嘗試	量測對新攻擊之穩健度

層級 2：嚴重性指標

指標	定義	評分
風險加權分數	納入嚴重性之聚合分數	Sum(severity_weight * success)
關鍵失效率	最高嚴重性成功攻擊之比率	關鍵成功 / 總嘗試
傷害潛能指數	若成功攻擊被部署之估計現實世界傷害	定性尺度：低／中／高／關鍵
爆炸半徑	可能受成功攻擊影響之使用者或系統數	估計使用者數或系統範圍

嚴重性加權尺度

嚴重性等級        權重      描述
─────────────────────────────────────────────────────────
Critical          10        資料外洩、程式碼執行、
                            完全安全繞過
High               7        詳細有害內容生成、
                            PII 揭露、工具濫用
Medium             4        部分安全繞過、系統提示
                            洩漏、輕微政策違規
Low                2        輕微資訊揭露、
                            不一致之拒絕行為
Informational      1        行為觀察、無直接
                            安全影響

防禦深度指標

量測分層防禦

多數 AI 系統採用多重防禦層。指標應捕捉攻擊穿透多深，而非僅是否最終成功。

指標	量測什麼	為何重要
層穿透深度	攻擊於被停前繞過多少防禦層	於第 1 層停止攻擊之系統較依賴第 3 層者更穩健
防禦繞過率（每層）	對每個個別防禦層之成功率	辨識防禦鏈中之最弱環節
單一失效點指數	移除任一單一防禦層是否造就關鍵失效	凸顯架構脆弱度
恢復率	於部分繞過後系統多常自我修正	量測縱深防禦韌性

防禦層模型

攻擊 → [輸入過濾器] → [系統提示] → [模型安全] → [輸出過濾器] → 回應
              ↓                ↓              ↓                ↓
         第 1 層繞過      第 2 層繞過    第 3 層繞過      第 4 層繞過
              ↓                ↓              ↓                ↓
         追蹤比率         追蹤比率       追蹤比率         追蹤比率

覆蓋指標

攻擊面覆蓋

維度	如何量測	目標
類別覆蓋	測試之 OWASP LLM Top 10 類別百分比	完整評估為 100%
技術覆蓋	嘗試之已知攻擊技術百分比	徹底委任為 80%+
模態覆蓋	測試之輸入模態（文字、圖像、音訊、檔案）	所有支援之模態
語言覆蓋	為安全一致性測試之語言	最低前 10 種使用者語言
脈絡覆蓋	測試之單輪、多輪、系統提示變化	所有相關互動模式

覆蓋缺口分析

# 覆蓋追蹤結構
coverage = {
    "categories_tested": 9,
    "categories_total": 10,  # OWASP LLM Top 10
    "coverage_pct": 90,
    "gaps": ["LLM10: Unbounded Consumption"],
    "techniques_by_category": {
        "LLM01_Prompt_Injection": {
            "tested": ["direct", "indirect", "stored", "multi-turn"],
            "not_tested": ["multi-language", "encoding_based"],
            "coverage_pct": 67
        }
    }
}

時序指標

隨時間追蹤

指標	描述	警告門檻
ASR 趨勢	連續評估之 ASR	自基線增加 > 5%
回歸計數	先前已修復之漏洞重現	關鍵／高發現之任何回歸
平均修復時間	自發現至補救之平均時間	依嚴重性變化
防禦改善率	防禦層改善之速率	應趨向正向
新漏洞發現率	每評估週期之新穎發現	預期趨向下降

回歸偵測

維護回歸測試套件
每個已確認之發現應產生回歸測試提示。加入自動化評估套件。
於每次變更執行回歸測試
模型更新、系統提示變更，與護欄修改應觸發回歸測試。
於回歸發出警報
任何先前已修復之發現重現即為回歸。這些應阻擋部署。
追蹤回歸率
高回歸率指示補救過程之系統性問題，非僅個別修復。

適合利害關係人之報告

按受眾之指標

受眾	重要指標	呈現格式
工程團隊	類別 ASR、每層繞過率、具體失效範例、回歸列表	詳細表格、程式碼範例、重現步驟
安全領導層	風險加權分數、關鍵失效率、覆蓋缺口、隨時間趨勢	具趨勢線之儀表板、熱圖
執行長／董事會	整體風險態勢（紅／黃／綠）、與業界基準比較、業務影響	一頁摘要、3-5 個關鍵數字
合規／法務	框架覆蓋（OWASP、NIST）、法規要求映射、稽核軌跡	合規矩陣、證據包

執行層儀表板

┌─────────────────────────────────────────────────────┐
│  AI Security Posture — March 2026                    │
│                                                     │
│  Overall Risk:  ██████░░░░  MEDIUM                  │
│                                                     │
│  Critical Findings:  2 (↓ from 5 last quarter)      │
│  Attack Success Rate: 8.3% (↓ from 12.1%)          │
│  Coverage Score:      87% (↑ from 72%)              │
│  Regression Rate:     3% (↓ from 11%)               │
│                                                     │
│  Top Risk: Agent tool abuse (3 critical findings)   │
│  Biggest Improvement: Prompt injection (ASR 4%→1%)  │
└─────────────────────────────────────────────────────┘

實作框架

指標蒐集檢核表

資料點	何時蒐集	儲存
攻擊提示與回應	每次評估嘗試	結果儲存
Judge 裁決與信心	每次評估嘗試	結果儲存
嚴重性分類	每次成功攻擊	發現資料庫
防禦層穿透	當有儀表	每嘗試 metadata
類別與技術標籤	每次評估嘗試	提示 metadata
模型與組態版本	每次評估執行	執行 metadata

參考資料

"Beyond Attack Success Rate: A Comprehensive Evaluation Framework for AI Red Teaming" - Anthropic（2024）- 為 AI 安全評估之多維指標研究
"OWASP Top 10 for LLM Applications" - OWASP Foundation（2025）- 於指標框架中作為覆蓋維度之漏洞類別
"NIST AI Risk Management Framework (AI RMF 1.0)" - National Institute of Standards and Technology（2023）- 告知紅隊指標設計之風險量測功能（Measure 子類別）
"MLCommons AI Safety Benchmark v0.5" - MLCommons（2024）- AI 安全評估之標準化評分方法論

Knowledge Check

超越 ASR 之紅隊指標

維護回歸測試套件

於每次變更執行回歸測試

於回歸發出警報

追蹤回歸率

Related articles

超越 ASR 之紅隊指標

維護回歸測試套件

於每次變更執行回歸測試

於回歸發出警報

追蹤回歸率

Related articles