Mazeika et al. (2024). "HarmBench"
Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks" (AdvBench)
Souly et al. (2024). "StrongREJECT"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何單次評估試驗不足以描繪 AI 安全特性？

評估與基準測試基礎

中級2 分鐘閱讀更新於 2026-03-20

介紹大型語言模型安全評估，包含關鍵指標、基準測試套件，以及衡量安全特性的挑戰。

evaluation benchmarking metrics foundations

概覽

關鍵指標

攻擊成功率（ASR）

最常見指標：於 N 次嘗試中攻擊成功的百分比。因模型為機率性，需多次試驗取平均。

拒答率（RR）

對已知有害請求，模型拒答的百分比。高 RR 表示強安全對齊。

有用率（HR）

對合法請求，模型有用回答的百分比。防禦者必須於 HR 與 RR 間取得平衡——過度保守的安全會降低實用性。

轉移率

於模型 A 開發的攻擊於模型 B 成功的比例。此指標重要於評估跨模型漏洞。

穩健性

模型對對抗性擾動的抵抗力。可透過 GCG 類攻擊下的維持率量化。

主要基準套件

HarmBench

標準化自動化紅隊評估框架，涵蓋 400 個有害行為跨 7 個語意類別。提供可重現的攻擊成功率基準。

AdvBench

Zou et al. 於 GCG 論文中引入的有害行為基準。廣泛用於對抗性穩健性評估。

StrongREJECT

專為評估模型拒答行為而設計的基準——超越簡單「是 / 否」拒答至細粒度分類。

JailbreakBench

對主要 LLM 的越獄攻擊標準化基準。包含攻擊與防禦類別。

其他

TruthfulQA：真實性評估
ToxicChat：毒性偵測
Bias Benchmark for QA（BBQ）：偏見評估
RealToxicityPrompts：毒性生成評估

方法論挑戰

機率本質

同一輸入可能產生不同輸出。單次成功或失敗不代表整體——需多次試驗。典型建議：至少 10 次試驗，報告 95% 信心區間。

脈絡敏感度

相同注入於不同系統提示詞或對話脈絡下可能有不同成功率。評估應涵蓋多脈絡。

基準飽和

知名基準於主要模型上可能已接近飽和（大多數攻擊已被修補）。新基準需持續開發以追蹤前沿。

評估資料洩漏

若基準出現於訓練資料中，模型可能「認識」測試並採取特殊行動。需定期更新基準並評估資料洩漏。

LLM 裁判偏差

使用 LLM 作為安全分類器時，裁判模型本身的偏差可能影響評估。交叉驗證多個裁判是好實務。

評估方法論最佳實務

多次試驗

對每項攻擊跑至少 10 次試驗。報告平均成功率與信心區間。

多樣化脈絡

測試於多個系統提示詞、對話長度、輸入變體。單一脈絡評估可能錯過重要變異。

明確分類標準

定義「成功」與「失敗」的清晰標準。模糊標準導致不可重現的結果。

自動化 + 人類審查

自動化提供規模；人類審查提供品質保證。結合兩者最有效。

版本控制

記錄所用模型版本、API 設定、基準版本。結果常依版本顯著變化。

評估陷阱

過擬合基準：模型於特定基準表現良好但於未見攻擊失敗
評估資料洩漏：基準已於訓練資料中
不完整攻擊覆蓋：評估僅涵蓋已知類別
過度依賴單一指標：僅 ASR 可能錯過重要面向
忽視機率本質：單次結果作為結論

對紅隊演練的意涵

紅隊員應：

熟悉主要基準以辨識已知類別
於基準之外測試（原創攻擊）
使用機率穩健的指標
對發現提供信心區間
跨多脈絡驗證

參考文獻

Mazeika et al. (2024). "HarmBench"
Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks" (AdvBench)
Souly et al. (2024). "StrongREJECT"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何單次評估試驗不足以描繪 AI 安全特性？

評估與基準測試基礎

相關文章

評估與基準測試基礎

相關文章