評估與基準測試基礎
介紹大型語言模型安全評估,包含關鍵指標、基準測試套件,以及衡量安全特性的挑戰。
概覽
AI 安全評估不同於傳統軟體測試,因為模型行為是機率性的、依脈絡的,且於訓練中可能因對抗性輸入有意外行為。本頁涵蓋指標、基準套件、方法論,以及正確評估 AI 安全時需要避免的陷阱。
關鍵指標
攻擊成功率(ASR)
最常見指標:於 N 次嘗試中攻擊成功的百分比。因模型為機率性,需多次試驗取平均。
拒答率(RR)
對已知有害請求,模型拒答的百分比。高 RR 表示強安全對齊。
有用率(HR)
對合法請求,模型有用回答的百分比。防禦者必須於 HR 與 RR 間取得平衡——過度保守的安全會降低實用性。
轉移率
於模型 A 開發的攻擊於模型 B 成功的比例。此指標重要於評估跨模型漏洞。
穩健性
模型對對抗性擾動的抵抗力。可透過 GCG 類攻擊下的維持率量化。
主要基準套件
HarmBench
標準化自動化紅隊評估框架,涵蓋 400 個有害行為跨 7 個語意類別。提供可重現的攻擊成功率基準。
AdvBench
Zou et al. 於 GCG 論文中引入的有害行為基準。廣泛用於對抗性穩健性評估。
StrongREJECT
專為評估模型拒答行為而設計的基準——超越簡單「是 / 否」拒答至細粒度分類。
JailbreakBench
對主要 LLM 的越獄攻擊標準化基準。包含攻擊與防禦類別。
其他
- TruthfulQA:真實性評估
- ToxicChat:毒性偵測
- Bias Benchmark for QA(BBQ):偏見評估
- RealToxicityPrompts:毒性生成評估
方法論挑戰
機率本質
同一輸入可能產生不同輸出。單次成功或失敗不代表整體——需多次試驗。典型建議:至少 10 次試驗,報告 95% 信心區間。
脈絡敏感度
相同注入於不同系統提示詞或對話脈絡下可能有不同成功率。評估應涵蓋多脈絡。
基準飽和
知名基準於主要模型上可能已接近飽和(大多數攻擊已被修補)。新基準需持續開發以追蹤前沿。
評估資料洩漏
若基準出現於訓練資料中,模型可能「認識」測試並採取特殊行動。需定期更新基準並評估資料洩漏。
LLM 裁判偏差
使用 LLM 作為安全分類器時,裁判模型本身的偏差可能影響評估。交叉驗證多個裁判是好實務。
評估方法論最佳實務
多次試驗
對每項攻擊跑至少 10 次試驗。報告平均成功率與信心區間。
多樣化脈絡
測試於多個系統提示詞、對話長度、輸入變體。單一脈絡評估可能錯過重要變異。
明確分類標準
定義「成功」與「失敗」的清晰標準。模糊標準導致不可重現的結果。
自動化 + 人類審查
自動化提供規模;人類審查提供品質保證。結合兩者最有效。
版本控制
記錄所用模型版本、API 設定、基準版本。結果常依版本顯著變化。
評估陷阱
- 過擬合基準:模型於特定基準表現良好但於未見攻擊失敗
- 評估資料洩漏:基準已於訓練資料中
- 不完整攻擊覆蓋:評估僅涵蓋已知類別
- 過度依賴單一指標:僅 ASR 可能錯過重要面向
- 忽視機率本質:單次結果作為結論
對紅隊演練的意涵
紅隊員應:
- 熟悉主要基準以辨識已知類別
- 於基準之外測試(原創攻擊)
- 使用機率穩健的指標
- 對發現提供信心區間
- 跨多脈絡驗證
相關主題
參考文獻
- Mazeika et al. (2024). "HarmBench"
- Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks" (AdvBench)
- Souly et al. (2024). "StrongREJECT"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
為何單次評估試驗不足以描繪 AI 安全特性?