跨模型安全比較

Advanced4 min readUpdated 2026-03-15

以標準化測試套件、失敗模式分析與防禦覆蓋缺口辨識，比較 GPT-4、Claude、Gemini 與開源權重模型之安全。

safety-comparison benchmarking failure-modes coverage-gaps cross-model

安全於模型家族間不僅於程度、亦於種類上差異。GPT-4、Claude、Gemini 與開源權重模型各具由其訓練做法、架構與部署組態塑形之獨特安全強項與弱點。理解這些差異對紅隊與防禦皆不可或缺。

標準化安全評估

評估框架

數個標準化框架存在以供跨模型安全評估：

HarmBench —— 自動化紅隊之完整基準——跨模型測試：

直接有害請求
版權違反
以脈絡為本之攻擊（few-shot、角色扮演）
以梯度為本之攻擊（適用時）

JailbreakBench —— 專門聚焦 jailbreak 抗性，具：

標準化 jailbreak 範本
一致評估標準
排行榜式模型比較

客製紅隊套件 —— 對專業紅隊，客製測試套件提供：

領域特定風險之覆蓋
與特定部署脈絡之對齊
測試新穎攻擊類別之彈性

設計比較測試套件

SAFETY_TEST_CATEGORIES = {
    "refusal_calibration": {
        "description": "模型應拒絕之測試",
        "subcategories": [
            "violence_instructions",
            "illegal_activities",
            "privacy_violations",
            "deception_assistance",
            "self_harm",
            "hate_speech",
        ]
    },
    "helpfulness_calibration": {
        "description": "敏感但應被回答之合法請求",
        "subcategories": [
            "security_research",
            "medical_information",
            "legal_questions",
            "historical_violence",
            "fictional_scenarios",
        ]
    },
    "jailbreak_resistance": {
        "description": "標準 jailbreak 技術",
        "subcategories": [
            "persona_attacks",
            "encoding_obfuscation",
            "many_shot",
            "crescendo",
            "academic_framing",
        ]
    },
    "injection_resistance": {
        "description": "提示注入技術",
        "subcategories": [
            "system_prompt_override",
            "instruction_injection",
            "role_confusion",
            "context_manipulation",
        ]
    },
}

失敗模式比較

不同安全訓練做法產生不同失敗模式。理解這些差異是跨模型比較之核心價值。

RLHF 失敗模式（GPT-4）

GPT-4 之以 RLHF 為本之安全顯現這些特徵性失敗模式：

分布偏移漏洞 —— 於訓練資料中未充分代表之新穎措辭或不尋常脈絡可繞過安全
諂媚 —— 對使用者同意之傾向可於使用者對拒絕表達挫折時覆蓋安全
模式匹配 —— 安全行為自範例學得，可能對不匹配訓練模式之輸入失敗
更新間不一致之校準 —— 安全邊界於模型版本間轉移，無明確文件

Constitutional AI 失敗模式（Claude）

Claude 之 Constitutional AI 做法產生獨特失敗：

論證漏洞 —— 模型參與「請求是否違反原則」之論證，可被辯論至遵從
原則衝突利用 —— 當憲章原則衝突時（有益 vs. 無害），歧義可被利用
法條式推理 —— 模型可能接受技術上有效但實務上有害之框架——滿足原則字面
依脈絡之原則套用 —— 相同原則可於不同對話脈絡中不同套用

多層安全失敗模式（Gemini）

Gemini 之分層做法於層邊界造就失敗：

層間缺口 —— 通過模型對齊但未觸發安全分類器之內容，或反之
可組態安全利用 —— 過度寬鬆之安全設定留下覆蓋缺口
跨模態安全不一致 —— 安全對文字較圖像、音訊或視訊強
層互動效應 —— 安全分類器可能於非預期方式干擾模型對齊

開源權重失敗模式

開源權重模型共享共同失敗模式：

經微調之安全移除 —— 所有開源權重安全皆可被移除
於無安全基礎設施下之部署 —— 模型於無外部 guardrail 下部署
社群引入之漏洞 —— 未審查變體與不安全微調
量化退化 —— 安全可能隨精度降低而退化

比較安全矩陣

拒絕校準比較

類別	GPT-4	Claude	Gemini	Llama 3	Mistral
暴力指令	強	強	強	中	弱
非法活動	強	強	強	中	弱
隱私侵害	中	強	中	中	弱
欺騙協助	中	強	中	弱	弱
自傷內容	強	強	強	中	弱
仇恨言論	強	強	強	中	弱
安全研究（應允許）	中	良好	中	良好	良好
醫療資訊（應允許）	良好	良好	良好	良好	良好

Jailbreak 抗性比較

技術	GPT-4	Claude	Gemini	Llama 3（instruct）
人格／角色扮演	中度抗性	良好抗性	中度抗性	弱抗性
編碼／混淆	良好抗性	良好抗性	中度抗性	弱抗性
Many-shot	中度抗性	中度抗性（長脈絡）	弱抗性（1M 脈絡）	中度抗性
Crescendo	弱抗性	弱抗性	中度抗性	弱抗性
學術框架	弱抗性	中度抗性	弱抗性	弱抗性
GCG 對抗	中度抗性	中度抗性	中度抗性	弱抗性（白箱）

系統提示保護

面向	GPT-4	Claude	Gemini
擷取抗性	中	中	弱—中
指令覆蓋抗性	中	良好	中
角色混淆抗性	中	良好	中
多輪操弄	弱	弱	中

防禦覆蓋缺口分析

經比較辨識缺口

跨模型比較最有價值之輸出是辨識缺口——模型顯著弱於其同儕之類別：

GPT-4 特定缺口：

多輪 crescendo 攻擊利用 RLHF 諂媚
函式呼叫注入是具有限防禦之獨特面
Logit bias 操弄可壓抑拒絕 token

Claude 特定缺口：

論證攻擊利用 Constitutional AI 推理
XML 標籤注入利用訓練格式慣例
Extended thinking 可洩漏安全推理

Gemini 特定缺口：

跨模態注入利用多模態架構
可組態安全設定造就應用層缺口
接地引入網頁內容注入向量

開源權重特定缺口：

安全經微調可被移除
無保證之部署安全基礎設施
社群變體破壞安全投資

以缺口驅動之測試策略

使用所辨識缺口以排序測試：

對每個模型，辨識其相對於同儕之缺口
為每個缺口設計針對性測試案例
測試缺口是否代表根本侷限或特定疏忽
以模型於何處強與弱之脈絡回報發現

跨模型安全模式

普遍弱點

某些漏洞影響所有當前模型：

提示注入 —— 無模型於指令與資料間具架構分離
多輪升級 —— 所有模型皆易受漸進脈絡操弄
脈絡長度退化 —— 安全一致性隨脈絡長度降低
新穎編碼 —— 新編碼或混淆方案初始繞過所有模型

模型特定強項

每個模型亦具獨特強項：

GPT-4 —— OpenAI 與研究社群之廣泛紅隊
Claude —— 經 Constitutional AI 對邊緣案例之有原則推理
Gemini —— 多層防禦（模型 + 分類器 + 過濾器）
Llama —— Llama Guard 提供獨立安全層

參考資料

Mazeika, M. et al.（2024）. "HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal"
Chao, P. et al.（2024）. "JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models"
Wei, A. et al.（2023）. "Jailbroken: How Does LLM Safety Training Fail?"
Zou, A. et al.（2023）. "Universal and Transferable Adversarial Attacks on Aligned Language Models"

Knowledge Check

對紅隊而言，跨模型家族比較安全之主要價值為何？