已發表紅隊報告分析
自 Anthropic、OpenAI、Google DeepMind 與 METR 之已發表紅隊報告深入分析。方法論分解、關鍵發現,與如何讀取並自專業紅隊評估學習。
主要 AI 實驗室作為其安全過程、模型卡與系統卡之一部分發布紅隊報告。這些報告為從業者之無價資源——它們揭示已測試方法論、發現之漏洞,與模型安全之當前狀態。學得讀取並自這些報告提取洞察為 AI 紅隊員之核心技能。
主要報告來源
Anthropic
Anthropic 為每個 Claude 釋出發布詳細模型卡與安全評估。其紅隊途徑強調:
- 結構化評估領域:按風險類別組織(CBRN、網路安全、說服、欺騙)
- Responsible Scaling Policy(RSP):定義觸發額外安全措施之能力門檻
- 外部紅隊計畫:聘請第三方安全研究者進行獨立評估
- 自動化紅隊:使用 Claude 本身於規模上生成對抗測試案例
關鍵方法論洞察: Anthropic 之途徑將紅隊視為繫於模型能力層級之持續過程,非一次性預釋出評估。
OpenAI
OpenAI 之系統卡(GPT-4、GPT-4o、o1、o3)提供結構化紅隊發現:
- 部署前評估:紅隊於公開釋出前之準備階段發生
- 領域專家組隊:招募特定風險領域(生物安全、網路安全、說服)之專家
- 量化指標:報告含特定攻擊類別之成功率
- 多模態測試:為文字、視覺與音訊能力之分離評估軌道
關鍵方法論洞察: OpenAI 之報告量化跨類別之攻擊成功率,為安全評估提供可基準化指標。
Google DeepMind
Google DeepMind 為 Gemini 模型之紅隊途徑含:
- 對抗測試框架:跨安全政策違規類別之結構化測試
- 自動化對抗測試:配數千對抗提示之大規模自動化測試
- 跨模態評估:測試文字、圖像、音訊與視訊模態間之互動
- 外部合作:與學術研究者與第三方紅隊之協作
METR(Model Evaluation & Threat Research)
METR 特別聚焦於評估前沿模型中之危險能力:
- 以任務為本之評估:測試模型是否能端對端完成特定危險任務
- 自主能力測試:評估模型於複雜多步任務上獨立運作之能力
- Uplift 量測:量測模型存取是否有意義地增加攻擊者能力
- 可重現評估:發布他人可複製之評估框架
如何讀取紅隊報告
辨識範圍
何模型版本、能力與部署脈絡被測試?報告常涵蓋可能與生產版本不同之特定模型快照。
繪製方法論
測試案例如何生成?手動專家測試、自動化 fuzzing、結構化評估框架或組合?理解方法論揭示何被測試與何可能被漏失。
提取分類法
何風險類別與攻擊類型被評估?自跨多個報告使用之類別打造你自身之測試分類法。
分析成功率
於回報處,攻擊成功率為何?哪些類別顯示最高與最低模型韌性?這些訊號何處聚焦你自身之測試。
注意限制
每個報告具「限制」章節。仔細讀取之——其告訴你何未被測試及缺口存在何處。這些缺口為你之測試機會。
方法論比較
| 面向 | Anthropic | OpenAI | DeepMind | METR |
|---|---|---|---|---|
| 主要途徑 | 持續 RSP 繫之評估 | 部署前系統卡 | 對抗測試框架 | 以任務為本之能力評估 |
| 自動化層級 | 高(AI 輔助之紅隊) | 中(專家 + 自動化) | 高(大規模自動化) | 中(結構化任務框架) |
| 風險類別 | CBRN、網路、說服、欺騙 | 安全政策違規、能力風險 | 政策違規類別 | 危險能力 uplift |
| 外部涉入 | 外部紅隊計畫 | 領域專家招募 | 學術合作 | 獨立評估組織 |
| 量化指標 | ASL 能力門檻 | 攻擊成功率 | 按類別違規率 | 任務完成率 |
| 報告節奏 | 每模型 + 持續 | 每模型系統卡 | 每模型釋出 | 每評估委任 |
自報告提取技術
報告常描述攻擊類別而不提供特定 payload。以下為如何自報告描述逆向工程可測試之技術:
報告陳述: 「We tested the model's resistance to role-play based jailbreaks and found a 12% bypass rate.」
要提取什麼:
- 角色扮演為值得測試之生產性攻擊向量
- 12% 繞過率暗示模型具某些對抗訓練但非完全穩健
- 測試變化:虛構情境、角色採用、漸進升級
報告陳述: 「Multi-turn attacks showed higher success rates than single-turn attempts across all categories.」
要提取什麼:
- 設計多輪攻擊序列而非單次嘗試
- 於遞送 payload 前建立對話脈絡
- 測試需多少輪以侵蝕模型抵抗
# 將報告發現轉為測試案例
test_categories_from_reports = {
"role_play_jailbreak": {
"source": "OpenAI GPT-4 System Card",
"reported_bypass_rate": 0.12,
"test_variations": [
"fictional_scenario",
"character_adoption",
"progressive_escalation",
"nested_fiction", # 故事中之故事
],
},
"multi_turn_escalation": {
"source": "Anthropic Claude 3 Model Card",
"key_finding": "multi-turn more effective than single-turn",
"test_parameters": {
"min_turns": 3,
"max_turns": 15,
"escalation_strategy": "gradual_boundary_push",
},
},
"cross_modal_injection": {
"source": "Google Gemini Technical Report",
"key_finding": "text-in-image bypasses text-only filters",
"test_variations": [
"ocr_text_in_image",
"steganographic_encoding",
"adversarial_perturbation",
],
},
}報告品質指標
非所有已發表報告同等有用。以這些準則評估報告品質:
| 指標 | 高品質 | 低品質 |
|---|---|---|
| 特異性 | 具成功率之具名攻擊類別 | 「廣泛測試」之模糊聲明 |
| 方法論透明度 | 描述測試如何生成與評估 | 黑箱 —— 「我們測試」無細節 |
| 限制承認 | 關於何未被測試之明確章節 | 聲稱完整涵蓋 |
| 可重現性 | 提供足夠細節以複製評估 | 結果無法獨立驗證 |
| 外部驗證 | 含第三方紅隊結果 | 僅內部評估 |
| 時序脈絡 | 指定模型版本與測試日期 | 不清楚哪版本被測試 |
自報告打造你自身之方法論
將已發表報告作為你紅隊方法論之基礎:
- 聚合分類法 —— 將來自所有主要報告之風險類別結合為完整測試檢核表
- 按成功率優先化 —— 將初始測試聚焦於報告顯示最高繞過率之類別
- 填補缺口 —— 為已發表報告明確不涵蓋之領域設計測試
- 對回報結果基準化 —— 將你之發現與已發表成功率比較以驗證你之測試深度
- 隨時間追蹤 —— 隨新報告發布,以新類別與技術更新你之方法論
關於結構化你自身紅隊委任之詳細指引,見 報告寫作、威脅建模,與 系統提示提取。
關鍵報告參考列表
| 報告 | 組織 | 年 | 主要聚焦 |
|---|---|---|---|
| GPT-4 System Card | OpenAI | 2023 | 多類別安全評估 |
| GPT-4o System Card | OpenAI | 2024 | 含音訊之多模態安全 |
| o1 System Card | OpenAI | 2024 | 推理模型安全、思維鏈 |
| Claude 3 Model Card | Anthropic | 2024 | 以 RSP 為本之能力評估 |
| Claude 3.5 Sonnet Model Card | Anthropic | 2024 | 更新之安全基準 |
| Gemini Technical Report | 2024 | 多模態安全評估 | |
| Frontier Model Evaluations | METR | 2024 | 自主能力評估 |
相關主題
- 值得注意之 AI 安全事件 -- 促使紅隊評估之現實世界事件
- 自 AI 安全事件習得之教訓 -- 告知評估方法論之模式
- 超越 ASR 之紅隊指標 -- 已發表報告使用之指標框架
- 報告範本與範例 -- 受已發表報告結構啟發之範本
參考資料
- "GPT-4 System Card" - OpenAI(2023)- 為 LLM 安全評估確立方法論模式之基礎紅隊報告
- "GPT-4o System Card" - OpenAI(2024)- 含音訊與視覺紅隊之多模態安全評估
- "Claude 3 Model Card" - Anthropic(2024)- 以 RSP 為本之能力評估方法論與安全基準
- "Gemini Technical Report" - Google DeepMind(2024)- 具跨能力評估之多模態安全評估
- "Frontier Model Evaluations" - METR(2024)- 為前沿 AI 能力之獨立第三方評估方法論
分析已發表紅隊報告時,何章節對辨識你自身之測試機會最有價值?