面向	Anthropic	OpenAI	DeepMind	METR
主要途徑	持續 RSP 繫之評估	部署前系統卡	對抗測試框架	以任務為本之能力評估
自動化層級	高（AI 輔助之紅隊）	中（專家 + 自動化）	高（大規模自動化）	中（結構化任務框架）
風險類別	CBRN、網路、說服、欺騙	安全政策違規、能力風險	政策違規類別	危險能力 uplift
外部涉入	外部紅隊計畫	領域專家招募	學術合作	獨立評估組織
量化指標	ASL 能力門檻	攻擊成功率	按類別違規率	任務完成率
報告節奏	每模型 + 持續	每模型系統卡	每模型釋出	每評估委任

自報告提取技術

報告常描述攻擊類別而不提供特定 payload。以下為如何自報告描述逆向工程可測試之技術：

報告陳述： 「We tested the model's resistance to role-play based jailbreaks and found a 12% bypass rate.」

要提取什麼：

角色扮演為值得測試之生產性攻擊向量
12% 繞過率暗示模型具某些對抗訓練但非完全穩健
測試變化：虛構情境、角色採用、漸進升級

報告陳述： 「Multi-turn attacks showed higher success rates than single-turn attempts across all categories.」

要提取什麼：

設計多輪攻擊序列而非單次嘗試
於遞送 payload 前建立對話脈絡
測試需多少輪以侵蝕模型抵抗

# 將報告發現轉為測試案例
test_categories_from_reports = {
    "role_play_jailbreak": {
        "source": "OpenAI GPT-4 System Card",
        "reported_bypass_rate": 0.12,
        "test_variations": [
            "fictional_scenario",
            "character_adoption",
            "progressive_escalation",
            "nested_fiction",  # 故事中之故事
        ],
    },
    "multi_turn_escalation": {
        "source": "Anthropic Claude 3 Model Card",
        "key_finding": "multi-turn more effective than single-turn",
        "test_parameters": {
            "min_turns": 3,
            "max_turns": 15,
            "escalation_strategy": "gradual_boundary_push",
        },
    },
    "cross_modal_injection": {
        "source": "Google Gemini Technical Report",
        "key_finding": "text-in-image bypasses text-only filters",
        "test_variations": [
            "ocr_text_in_image",
            "steganographic_encoding",
            "adversarial_perturbation",
        ],
    },
}

報告品質指標

非所有已發表報告同等有用。以這些準則評估報告品質：

指標	高品質	低品質
特異性	具成功率之具名攻擊類別	「廣泛測試」之模糊聲明
方法論透明度	描述測試如何生成與評估	黑箱 —— 「我們測試」無細節
限制承認	關於何未被測試之明確章節	聲稱完整涵蓋
可重現性	提供足夠細節以複製評估	結果無法獨立驗證
外部驗證	含第三方紅隊結果	僅內部評估
時序脈絡	指定模型版本與測試日期	不清楚哪版本被測試

自報告打造你自身之方法論

將已發表報告作為你紅隊方法論之基礎：

聚合分類法 —— 將來自所有主要報告之風險類別結合為完整測試檢核表
按成功率優先化 —— 將初始測試聚焦於報告顯示最高繞過率之類別
填補缺口 —— 為已發表報告明確不涵蓋之領域設計測試
對回報結果基準化 —— 將你之發現與已發表成功率比較以驗證你之測試深度
隨時間追蹤 —— 隨新報告發布，以新類別與技術更新你之方法論

關於結構化你自身紅隊委任之詳細指引，見報告寫作、威脅建模，與系統提示提取。

關鍵報告參考列表

報告	組織	年	主要聚焦
GPT-4 System Card	OpenAI	2023	多類別安全評估
GPT-4o System Card	OpenAI	2024	含音訊之多模態安全
o1 System Card	OpenAI	2024	推理模型安全、思維鏈
Claude 3 Model Card	Anthropic	2024	以 RSP 為本之能力評估
Claude 3.5 Sonnet Model Card	Anthropic	2024	更新之安全基準
Gemini Technical Report	Google	2024	多模態安全評估
Frontier Model Evaluations	METR	2024	自主能力評估

參考資料

"GPT-4 System Card" - OpenAI（2023）- 為 LLM 安全評估確立方法論模式之基礎紅隊報告
"GPT-4o System Card" - OpenAI（2024）- 含音訊與視覺紅隊之多模態安全評估
"Claude 3 Model Card" - Anthropic（2024）- 以 RSP 為本之能力評估方法論與安全基準
"Gemini Technical Report" - Google DeepMind（2024）- 具跨能力評估之多模態安全評估
"Frontier Model Evaluations" - METR（2024）- 為前沿 AI 能力之獨立第三方評估方法論

Knowledge Check

分析已發表紅隊報告時，何章節對辨識你自身之測試機會最有價值？

已發表紅隊報告分析

進階4 分鐘閱讀更新於 2026-03-13

自 Anthropic、OpenAI、Google DeepMind 與 METR 之已發表紅隊報告深入分析。方法論分解、關鍵發現，與如何讀取並自專業紅隊評估學習。

reports analysis case-studies methodology

主要報告來源

Anthropic

Anthropic 為每個 Claude 釋出發布詳細模型卡與安全評估。其紅隊途徑強調：

結構化評估領域：按風險類別組織（CBRN、網路安全、說服、欺騙）
Responsible Scaling Policy（RSP）：定義觸發額外安全措施之能力門檻
外部紅隊計畫：聘請第三方安全研究者進行獨立評估
自動化紅隊：使用 Claude 本身於規模上生成對抗測試案例

關鍵方法論洞察： Anthropic 之途徑將紅隊視為繫於模型能力層級之持續過程，非一次性預釋出評估。

OpenAI

OpenAI 之系統卡（GPT-4、GPT-4o、o1、o3）提供結構化紅隊發現：

部署前評估：紅隊於公開釋出前之準備階段發生
領域專家組隊：招募特定風險領域（生物安全、網路安全、說服）之專家
量化指標：報告含特定攻擊類別之成功率
多模態測試：為文字、視覺與音訊能力之分離評估軌道

關鍵方法論洞察： OpenAI 之報告量化跨類別之攻擊成功率，為安全評估提供可基準化指標。

Google DeepMind

Google DeepMind 為 Gemini 模型之紅隊途徑含：

對抗測試框架：跨安全政策違規類別之結構化測試
自動化對抗測試：配數千對抗提示之大規模自動化測試
跨模態評估：測試文字、圖像、音訊與視訊模態間之互動
外部合作：與學術研究者與第三方紅隊之協作

METR（Model Evaluation & Threat Research）

METR 特別聚焦於評估前沿模型中之危險能力：

以任務為本之評估：測試模型是否能端對端完成特定危險任務
自主能力測試：評估模型於複雜多步任務上獨立運作之能力
Uplift 量測：量測模型存取是否有意義地增加攻擊者能力
可重現評估：發布他人可複製之評估框架

如何讀取紅隊報告

辨識範圍
何模型版本、能力與部署脈絡被測試？報告常涵蓋可能與生產版本不同之特定模型快照。
繪製方法論
測試案例如何生成？手動專家測試、自動化 fuzzing、結構化評估框架或組合？理解方法論揭示何被測試與何可能被漏失。
提取分類法
何風險類別與攻擊類型被評估？自跨多個報告使用之類別打造你自身之測試分類法。
分析成功率
於回報處，攻擊成功率為何？哪些類別顯示最高與最低模型韌性？這些訊號何處聚焦你自身之測試。
注意限制
每個報告具「限制」章節。仔細讀取之——其告訴你何未被測試及缺口存在何處。這些缺口為你之測試機會。

方法論比較

面向	Anthropic	OpenAI	DeepMind	METR
主要途徑	持續 RSP 繫之評估	部署前系統卡	對抗測試框架	以任務為本之能力評估
自動化層級	高（AI 輔助之紅隊）	中（專家 + 自動化）	高（大規模自動化）	中（結構化任務框架）
風險類別	CBRN、網路、說服、欺騙	安全政策違規、能力風險	政策違規類別	危險能力 uplift
外部涉入	外部紅隊計畫	領域專家招募	學術合作	獨立評估組織
量化指標	ASL 能力門檻	攻擊成功率	按類別違規率	任務完成率
報告節奏	每模型 + 持續	每模型系統卡	每模型釋出	每評估委任

自報告提取技術

報告常描述攻擊類別而不提供特定 payload。以下為如何自報告描述逆向工程可測試之技術：

報告陳述： 「We tested the model's resistance to role-play based jailbreaks and found a 12% bypass rate.」

要提取什麼：

角色扮演為值得測試之生產性攻擊向量
12% 繞過率暗示模型具某些對抗訓練但非完全穩健
測試變化：虛構情境、角色採用、漸進升級

報告陳述： 「Multi-turn attacks showed higher success rates than single-turn attempts across all categories.」

要提取什麼：

設計多輪攻擊序列而非單次嘗試
於遞送 payload 前建立對話脈絡
測試需多少輪以侵蝕模型抵抗

# 將報告發現轉為測試案例
test_categories_from_reports = {
    "role_play_jailbreak": {
        "source": "OpenAI GPT-4 System Card",
        "reported_bypass_rate": 0.12,
        "test_variations": [
            "fictional_scenario",
            "character_adoption",
            "progressive_escalation",
            "nested_fiction",  # 故事中之故事
        ],
    },
    "multi_turn_escalation": {
        "source": "Anthropic Claude 3 Model Card",
        "key_finding": "multi-turn more effective than single-turn",
        "test_parameters": {
            "min_turns": 3,
            "max_turns": 15,
            "escalation_strategy": "gradual_boundary_push",
        },
    },
    "cross_modal_injection": {
        "source": "Google Gemini Technical Report",
        "key_finding": "text-in-image bypasses text-only filters",
        "test_variations": [
            "ocr_text_in_image",
            "steganographic_encoding",
            "adversarial_perturbation",
        ],
    },
}

報告品質指標

非所有已發表報告同等有用。以這些準則評估報告品質：

指標	高品質	低品質
特異性	具成功率之具名攻擊類別	「廣泛測試」之模糊聲明
方法論透明度	描述測試如何生成與評估	黑箱 —— 「我們測試」無細節
限制承認	關於何未被測試之明確章節	聲稱完整涵蓋
可重現性	提供足夠細節以複製評估	結果無法獨立驗證
外部驗證	含第三方紅隊結果	僅內部評估
時序脈絡	指定模型版本與測試日期	不清楚哪版本被測試

自報告打造你自身之方法論

將已發表報告作為你紅隊方法論之基礎：

聚合分類法 —— 將來自所有主要報告之風險類別結合為完整測試檢核表
按成功率優先化 —— 將初始測試聚焦於報告顯示最高繞過率之類別
填補缺口 —— 為已發表報告明確不涵蓋之領域設計測試
對回報結果基準化 —— 將你之發現與已發表成功率比較以驗證你之測試深度
隨時間追蹤 —— 隨新報告發布，以新類別與技術更新你之方法論

關於結構化你自身紅隊委任之詳細指引，見報告寫作、威脅建模，與系統提示提取。

關鍵報告參考列表

報告	組織	年	主要聚焦
GPT-4 System Card	OpenAI	2023	多類別安全評估
GPT-4o System Card	OpenAI	2024	含音訊之多模態安全
o1 System Card	OpenAI	2024	推理模型安全、思維鏈
Claude 3 Model Card	Anthropic	2024	以 RSP 為本之能力評估
Claude 3.5 Sonnet Model Card	Anthropic	2024	更新之安全基準
Gemini Technical Report	Google	2024	多模態安全評估
Frontier Model Evaluations	METR	2024	自主能力評估

參考資料

"GPT-4 System Card" - OpenAI（2023）- 為 LLM 安全評估確立方法論模式之基礎紅隊報告
"GPT-4o System Card" - OpenAI（2024）- 含音訊與視覺紅隊之多模態安全評估
"Claude 3 Model Card" - Anthropic（2024）- 以 RSP 為本之能力評估方法論與安全基準
"Gemini Technical Report" - Google DeepMind（2024）- 具跨能力評估之多模態安全評估
"Frontier Model Evaluations" - METR（2024）- 為前沿 AI 能力之獨立第三方評估方法論

Knowledge Check

分析已發表紅隊報告時，何章節對辨識你自身之測試機會最有價值？

已發表紅隊報告分析

主要報告來源

Anthropic

OpenAI

Google DeepMind

METR（Model Evaluation & Threat Research）

如何讀取紅隊報告

辨識範圍

繪製方法論

提取分類法

分析成功率

注意限制

方法論比較

自報告提取技術

報告品質指標

自報告打造你自身之方法論

關鍵報告參考列表

相關主題

參考資料

已發表紅隊報告分析

主要報告來源

Anthropic

OpenAI

Google DeepMind

METR（Model Evaluation & Threat Research）

如何讀取紅隊報告

辨識範圍

繪製方法論

提取分類法

分析成功率

注意限制

方法論比較

自報告提取技術

報告品質指標

自報告打造你自身之方法論

關鍵報告參考列表

相關主題

參考資料

已發表紅隊報告分析

辨識範圍

繪製方法論

提取分類法

分析成功率

注意限制

相關文章

已發表紅隊報告分析

辨識範圍

繪製方法論

提取分類法

分析成功率

注意限制

相關文章