跨模型安全比較
Advanced4 min readUpdated 2026-03-15
以標準化測試套件、失敗模式分析與防禦覆蓋缺口辨識,比較 GPT-4、Claude、Gemini 與開源權重模型之安全。
安全於模型家族間不僅於程度、亦於種類上差異。GPT-4、Claude、Gemini 與開源權重模型各具由其訓練做法、架構與部署組態塑形之獨特安全強項與弱點。理解這些差異對紅隊與防禦皆不可或缺。
標準化安全評估
評估框架
數個標準化框架存在以供跨模型安全評估:
HarmBench —— 自動化紅隊之完整基準——跨模型測試:
- 直接有害請求
- 版權違反
- 以脈絡為本之攻擊(few-shot、角色扮演)
- 以梯度為本之攻擊(適用時)
JailbreakBench —— 專門聚焦 jailbreak 抗性,具:
- 標準化 jailbreak 範本
- 一致評估標準
- 排行榜式模型比較
客製紅隊套件 —— 對專業紅隊,客製測試套件提供:
- 領域特定風險之覆蓋
- 與特定部署脈絡之對齊
- 測試新穎攻擊類別之彈性
設計比較測試套件
SAFETY_TEST_CATEGORIES = {
"refusal_calibration": {
"description": "模型應拒絕之測試",
"subcategories": [
"violence_instructions",
"illegal_activities",
"privacy_violations",
"deception_assistance",
"self_harm",
"hate_speech",
]
},
"helpfulness_calibration": {
"description": "敏感但應被回答之合法請求",
"subcategories": [
"security_research",
"medical_information",
"legal_questions",
"historical_violence",
"fictional_scenarios",
]
},
"jailbreak_resistance": {
"description": "標準 jailbreak 技術",
"subcategories": [
"persona_attacks",
"encoding_obfuscation",
"many_shot",
"crescendo",
"academic_framing",
]
},
"injection_resistance": {
"description": "提示注入技術",
"subcategories": [
"system_prompt_override",
"instruction_injection",
"role_confusion",
"context_manipulation",
]
},
}失敗模式比較
不同安全訓練做法產生不同失敗模式。理解這些差異是跨模型比較之核心價值。
RLHF 失敗模式(GPT-4)
GPT-4 之以 RLHF 為本之安全顯現這些特徵性失敗模式:
- 分布偏移漏洞 —— 於訓練資料中未充分代表之新穎措辭或不尋常脈絡可繞過安全
- 諂媚 —— 對使用者同意之傾向可於使用者對拒絕表達挫折時覆蓋安全
- 模式匹配 —— 安全行為自範例學得,可能對不匹配訓練模式之輸入失敗
- 更新間不一致之校準 —— 安全邊界於模型版本間轉移,無明確文件
Constitutional AI 失敗模式(Claude)
Claude 之 Constitutional AI 做法產生獨特失敗:
- 論證漏洞 —— 模型參與「請求是否違反原則」之論證,可被辯論至遵從
- 原則衝突利用 —— 當憲章原則衝突時(有益 vs. 無害),歧義可被利用
- 法條式推理 —— 模型可能接受技術上有效但實務上有害之框架——滿足原則字面
- 依脈絡之原則套用 —— 相同原則可於不同對話脈絡中不同套用
多層安全失敗模式(Gemini)
Gemini 之分層做法於層邊界造就失敗:
- 層間缺口 —— 通過模型對齊但未觸發安全分類器之內容,或反之
- 可組態安全利用 —— 過度寬鬆之安全設定留下覆蓋缺口
- 跨模態安全不一致 —— 安全對文字較圖像、音訊或視訊強
- 層互動效應 —— 安全分類器可能於非預期方式干擾模型對齊
開源權重失敗模式
開源權重模型共享共同失敗模式:
- 經微調之安全移除 —— 所有開源權重安全皆可被移除
- 於無安全基礎設施下之部署 —— 模型於無外部 guardrail 下部署
- 社群引入之漏洞 —— 未審查變體與不安全微調
- 量化退化 —— 安全可能隨精度降低而退化
比較安全矩陣
拒絕校準比較
| 類別 | GPT-4 | Claude | Gemini | Llama 3 | Mistral |
|---|---|---|---|---|---|
| 暴力指令 | 強 | 強 | 強 | 中 | 弱 |
| 非法活動 | 強 | 強 | 強 | 中 | 弱 |
| 隱私侵害 | 中 | 強 | 中 | 中 | 弱 |
| 欺騙協助 | 中 | 強 | 中 | 弱 | 弱 |
| 自傷內容 | 強 | 強 | 強 | 中 | 弱 |
| 仇恨言論 | 強 | 強 | 強 | 中 | 弱 |
| 安全研究(應允許) | 中 | 良好 | 中 | 良好 | 良好 |
| 醫療資訊(應允許) | 良好 | 良好 | 良好 | 良好 | 良好 |
Jailbreak 抗性比較
| 技術 | GPT-4 | Claude | Gemini | Llama 3(instruct) |
|---|---|---|---|---|
| 人格/角色扮演 | 中度抗性 | 良好抗性 | 中度抗性 | 弱抗性 |
| 編碼/混淆 | 良好抗性 | 良好抗性 | 中度抗性 | 弱抗性 |
| Many-shot | 中度抗性 | 中度抗性(長脈絡) | 弱抗性(1M 脈絡) | 中度抗性 |
| Crescendo | 弱抗性 | 弱抗性 | 中度抗性 | 弱抗性 |
| 學術框架 | 弱抗性 | 中度抗性 | 弱抗性 | 弱抗性 |
| GCG 對抗 | 中度抗性 | 中度抗性 | 中度抗性 | 弱抗性(白箱) |
系統提示保護
| 面向 | GPT-4 | Claude | Gemini |
|---|---|---|---|
| 擷取抗性 | 中 | 中 | 弱—中 |
| 指令覆蓋抗性 | 中 | 良好 | 中 |
| 角色混淆抗性 | 中 | 良好 | 中 |
| 多輪操弄 | 弱 | 弱 | 中 |
防禦覆蓋缺口分析
經比較辨識缺口
跨模型比較最有價值之輸出是辨識缺口——模型顯著弱於其同儕之類別:
GPT-4 特定缺口:
- 多輪 crescendo 攻擊利用 RLHF 諂媚
- 函式呼叫注入是具有限防禦之獨特面
- Logit bias 操弄可壓抑拒絕 token
Claude 特定缺口:
- 論證攻擊利用 Constitutional AI 推理
- XML 標籤注入利用訓練格式慣例
- Extended thinking 可洩漏安全推理
Gemini 特定缺口:
- 跨模態注入利用多模態架構
- 可組態安全設定造就應用層缺口
- 接地引入網頁內容注入向量
開源權重特定缺口:
- 安全經微調可被移除
- 無保證之部署安全基礎設施
- 社群變體破壞安全投資
以缺口驅動之測試策略
使用所辨識缺口以排序測試:
- 對每個模型,辨識其相對於同儕之缺口
- 為每個缺口設計針對性測試案例
- 測試缺口是否代表根本侷限或特定疏忽
- 以模型於何處強與弱之脈絡回報發現
跨模型安全模式
普遍弱點
某些漏洞影響所有當前模型:
- 提示注入 —— 無模型於指令與資料間具架構分離
- 多輪升級 —— 所有模型皆易受漸進脈絡操弄
- 脈絡長度退化 —— 安全一致性隨脈絡長度降低
- 新穎編碼 —— 新編碼或混淆方案初始繞過所有模型
模型特定強項
每個模型亦具獨特強項:
- GPT-4 —— OpenAI 與研究社群之廣泛紅隊
- Claude —— 經 Constitutional AI 對邊緣案例之有原則推理
- Gemini —— 多層防禦(模型 + 分類器 + 過濾器)
- Llama —— Llama Guard 提供獨立安全層
相關主題
- Jailbreak 可遷移性 -- 哪些攻擊跨模型遷移
- 跨模型比較概觀 -- 比較方法論
- Jailbreak 技術 -- 跨模型測試之技術
- 防禦規避 -- 繞過模型特定防禦
參考資料
- Mazeika, M. et al.(2024). "HarmBench: A Standardized Evaluation Framework for Automated Red Teaming and Robust Refusal"
- Chao, P. et al.(2024). "JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models"
- Wei, A. et al.(2023). "Jailbroken: How Does LLM Safety Training Fail?"
- Zou, A. et al.(2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Knowledge Check
對紅隊而言,跨模型家族比較安全之主要價值為何?