What is Claude（Anthropic）概觀?

Anthropic Claude 模型家族的架構與安全概觀，涵蓋 Sonnet、Opus 與 Haiku 變體、Constitutional AI 訓練、RLHF 做法，以及 harmlessness 設計哲學。

What is Gemini（Google）概觀?

Google Gemini 模型家族的架構概觀，包括原生多模態設計、長上下文能力、Google 生態整合，以及對紅隊具意義的安全相關特性。

What is GPT-4 / GPT-4o 概觀?

OpenAI GPT-4 與 GPT-4o 模型的架構概觀，涵蓋傳聞中的 Mixture of Experts 設計、能力、API 介面，以及對紅隊具意義的安全相關特性。

What is 跨模型比較?

系統性比較 LLM 安全性的方法論，跨模型家族進行，內容涵蓋標準化評估框架、架構差異分析與比較測試方法。

What is 開源權重模型安全?

開源權重模型（包括 Llama、Mistral、Qwen 與 DeepSeek）之安全分析，涵蓋自完整權重存取、微調攻擊，與部署安全挑戰之獨特風險。

What is Claude Architecture 安全 Analysis?

Deep security analysis of Claude's architecture including extended thinking, tool use, and safety mechanisms.

What is GPT-4 Architecture 安全 Analysis?

Deep security analysis of GPT-4's architecture including function calling, vision, and safety layers.

What is Gemini Architecture 安全 Analysis?

Deep security analysis of Gemini's native multimodal architecture and long-context capabilities.

What is Llama 4 安全 Analysis?

安全 analysis of Llama 4 including open-weight attack surface and fine-tuning vulnerabilities.

What is DeepSeek-R1 安全 Analysis?

Security analysis of DeepSeek-R1's reasoning capabilities and MoE architecture vulnerabilities.

模型深入探討

Intermediate3 min readUpdated 2026-03-15

為何模型特定知識對 AI 紅隊演練重要、不同架構如何建立不同的攻擊面，以及為任何新模型剖析的系統化方法論。

model-security red-teaming attack-surface methodology architecture

每個大型語言模型在安全方面都有個性。兩個產生相似基準分數的模型可能有截然不同的漏洞概貌。可靠對抗一個模型的越獄對另一個可能完全失敗，而在一個脈絡看似穩健的防禦在不同架構可能被簡單繞過。本節為你提供跨主要模型家族有效紅隊演練所需的模型特定知識。

為何模型特定知識重要

通用紅隊演練技術是必要但非充分的。考慮以下情境：你有一個可靠的越獄，透過利用函式呼叫語意繞過 GPT-4 的安全過濾器。你對 Claude 嘗試相同技術但完全失敗——不是因為 Claude 更安全，而是因為它以不同方式處理工具呼叫。同時，Claude 特有的 Constitutional AI 弱點未被測試，因為你的劇本是為不同架構建構的。

實務上這不斷發生。將所有模型視為可互換黑盒的紅隊會錯過模型特定漏洞，並在對其目標沒有機會有效的技術上浪費時間。

從架構到攻擊面的管線

模型的架構、訓練方法論與部署基礎設施共同定義其攻擊面。每一層引入不同的漏洞類別：

層	它決定什麼	安全影響
基礎架構	符元處理、注意力模式、上下文處理	分詞攻擊、上下文視窗利用、注意力操控
訓練方法論	安全對齊方法（RLHF、Constitutional AI、DPO）	對齊繞過技術、訓練資料萃取
微調與後訓練	指令遵循、拒絕行為、工具使用	越獄敏感性、系統提示詞遵守
API 與部署	速率限制、內容過濾器、函式呼叫、多模態輸入	過濾器繞過、API 濫用、跨模態注入
生態系整合	外掛、工具、檢索、程式碼執行	間接注入、工具利用、權限提升

以 Constitutional AI 訓練的模型（如 Claude）與以 RLHF 訓練的模型（如 GPT-4）有不同的對齊失敗模式。原生多模態模型（如 Gemini）有純文字模型所缺乏的攻擊面。開放權重模型（如 Llama）以閉源模型永遠無法做到的方式將其權重暴露於直接操控。

模型差異的維度

為紅隊演練剖析模型時，在這些關鍵維度上評估它：

安全訓練方法

用於對齊模型的方法從根本上形塑其失敗模式。

RLHF（來自人類回饋的強化學習） 訓練模型產生人類評分者偏好的輸出。這建立從範例學習而非從原則導出的安全行為。以 RLHF 訓練的模型傾向於對分布偏移脆弱——落在安全訓練期間所見模式之外的輸入。

Constitutional AI 使用一組原則來指導自我批評與修訂。以此方式訓練的模型可能展現不同的失敗模式：它們有時可能被說服有害請求不違反其原則，或原則本身應在脈絡中被重新詮釋。

Direct Preference Optimization（DPO） 與相關技術直接修改訓練目標。這些方法可能產生與 RLHF 不同的拒絕校準，有時拒絕過廣或過窄。

模型卡與技術報告 — 架構細節、訓練資料描述、聲明的安全措施
API 文件 — 可用參數、支援模態、速率限制、內容政策
已知漏洞 — 搜尋已發表研究、部落格文章與 CVE 等效揭露
社群發現 — 論壇、社群媒體與負責任揭露報告經常在正式發表前揭露技術

階段 2：基準評估

在嘗試任何攻擊前建立模型的預設行為：

拒絕校準 — 跨傷害類別（暴力、非法活動、隱私、偏誤）提交一組標準化請求。記錄模型拒絕什麼以及如何措辭拒絕。
系統提示詞遵守 — 測試模型跟隨系統層級指令對比使用者層級覆蓋的強度。
輸出格式合規 — 判斷模型是否可靠遵循結構化輸出約束，因為格式操控是常見的攻擊原語。
工具使用行為 — 如果模型支援函式呼叫，以格式錯誤的架構、衝突指令與邊緣案例輸入測試其行為。

階段 3：攻擊面描繪

基於你的偵察與基準評估描繪特定攻擊面：

Model Attack Surface Map
========================
1. Input channels:    [text, image, audio, video, files, URLs]
2. Output channels:   [text, function calls, code, images]
3. Safety layers:     [pre-filter, alignment, post-filter, content policy]
4. Integration points: [tools, retrieval, plugins, code execution]
5. Context handling:   [window size, memory, conversation state]
6. Known weaknesses:   [from reconnaissance phase]

階段 4：針對性測試

有了你的攻擊面圖，為每個識別的面設計針對性測試案例。基於以下優先排序：

影響 — 哪些攻擊面若被利用會導致最顯著的後果？
新穎性 — 哪些面最不可能被他人測試過？
可轉移性 — 哪些發現會普遍化到相同模型的其他部署？

階段 5：跨模型驗證

對其他模型測試你的發現以判斷漏洞是模型特定還是架構性的：

如果技術跨多個模型有效，它可能利用根本的 LLM 限制
如果它僅對一個模型有效，它鎖定該模型的特定訓練或部署選擇
記錄兩種情況，因為模型特定漏洞通常對防禦者最可採取行動

章節概覽

本節為你在生產中會遇到的主要模型家族提供深入探討：

GPT-4 / GPT-4o — OpenAI 的旗艦模型、其傳聞的 MoE 架構、函式呼叫面與已知漏洞歷史
Claude — Anthropic 的模型家族、Constitutional AI 訓練，以及它建立的獨特攻擊面
Gemini — Google 的原生多模態模型、長上下文利用，以及 Google 生態系整合風險
開放權重模型 — Llama、Mistral、Qwen、DeepSeek，以及當權重公開時根本不同的威脅模型
跨模型比較 — 標準化比較方法論、安全涵蓋落差與越獄可攜性

每個模型章節遵循相同結構：架構概覽、攻擊面分析、已記錄漏洞與測試方法論。此一致性讓你能建構比較模型的心智模型，並從安全視角快速識別每個的獨特之處。

參考文獻

Anthropic (2024). "Many-Shot Jailbreaking"
Wei, A. et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Shayegani, E. et al. (2023). "Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks"
OWASP (2025). OWASP Top 10 for LLM Applications

Knowledge Check

為何在紅隊演練前剖析模型的安全訓練方法（RLHF vs Constitutional AI vs DPO）很重要？

模型深入探討

Intermediate3 min readUpdated 2026-03-15

為何模型特定知識對 AI 紅隊演練重要、不同架構如何建立不同的攻擊面，以及為任何新模型剖析的系統化方法論。

model-security red-teaming attack-surface methodology architecture

為何模型特定知識重要

實務上這不斷發生。將所有模型視為可互換黑盒的紅隊會錯過模型特定漏洞，並在對其目標沒有機會有效的技術上浪費時間。

從架構到攻擊面的管線

模型的架構、訓練方法論與部署基礎設施共同定義其攻擊面。每一層引入不同的漏洞類別：

層	它決定什麼	安全影響
基礎架構	符元處理、注意力模式、上下文處理	分詞攻擊、上下文視窗利用、注意力操控
訓練方法論	安全對齊方法（RLHF、Constitutional AI、DPO）	對齊繞過技術、訓練資料萃取
微調與後訓練	指令遵循、拒絕行為、工具使用	越獄敏感性、系統提示詞遵守
API 與部署	速率限制、內容過濾器、函式呼叫、多模態輸入	過濾器繞過、API 濫用、跨模態注入
生態系整合	外掛、工具、檢索、程式碼執行	間接注入、工具利用、權限提升

模型卡與技術報告 — 架構細節、訓練資料描述、聲明的安全措施
API 文件 — 可用參數、支援模態、速率限制、內容政策
已知漏洞 — 搜尋已發表研究、部落格文章與 CVE 等效揭露
社群發現 — 論壇、社群媒體與負責任揭露報告經常在正式發表前揭露技術

階段 2：基準評估

在嘗試任何攻擊前建立模型的預設行為：

拒絕校準 — 跨傷害類別（暴力、非法活動、隱私、偏誤）提交一組標準化請求。記錄模型拒絕什麼以及如何措辭拒絕。
系統提示詞遵守 — 測試模型跟隨系統層級指令對比使用者層級覆蓋的強度。
輸出格式合規 — 判斷模型是否可靠遵循結構化輸出約束，因為格式操控是常見的攻擊原語。
工具使用行為 — 如果模型支援函式呼叫，以格式錯誤的架構、衝突指令與邊緣案例輸入測試其行為。

階段 3：攻擊面描繪

基於你的偵察與基準評估描繪特定攻擊面：

Model Attack Surface Map
========================
1. Input channels:    [text, image, audio, video, files, URLs]
2. Output channels:   [text, function calls, code, images]
3. Safety layers:     [pre-filter, alignment, post-filter, content policy]
4. Integration points: [tools, retrieval, plugins, code execution]
5. Context handling:   [window size, memory, conversation state]
6. Known weaknesses:   [from reconnaissance phase]

階段 4：針對性測試

有了你的攻擊面圖，為每個識別的面設計針對性測試案例。基於以下優先排序：

影響 — 哪些攻擊面若被利用會導致最顯著的後果？
新穎性 — 哪些面最不可能被他人測試過？
可轉移性 — 哪些發現會普遍化到相同模型的其他部署？

階段 5：跨模型驗證

對其他模型測試你的發現以判斷漏洞是模型特定還是架構性的：

如果技術跨多個模型有效，它可能利用根本的 LLM 限制
如果它僅對一個模型有效，它鎖定該模型的特定訓練或部署選擇
記錄兩種情況，因為模型特定漏洞通常對防禦者最可採取行動

章節概覽

本節為你在生產中會遇到的主要模型家族提供深入探討：

GPT-4 / GPT-4o — OpenAI 的旗艦模型、其傳聞的 MoE 架構、函式呼叫面與已知漏洞歷史
Claude — Anthropic 的模型家族、Constitutional AI 訓練，以及它建立的獨特攻擊面
Gemini — Google 的原生多模態模型、長上下文利用，以及 Google 生態系整合風險
開放權重模型 — Llama、Mistral、Qwen、DeepSeek，以及當權重公開時根本不同的威脅模型
跨模型比較 — 標準化比較方法論、安全涵蓋落差與越獄可攜性

參考文獻

Anthropic (2024). "Many-Shot Jailbreaking"
Wei, A. et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Shayegani, E. et al. (2023). "Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks"
OWASP (2025). OWASP Top 10 for LLM Applications

Knowledge Check

為何在紅隊演練前剖析模型的安全訓練方法（RLHF vs Constitutional AI vs DPO）很重要？

模型深入探討

為何模型特定知識重要

從架構到攻擊面的管線

模型差異的維度

安全訓練方法

上下文視窗與記憶體

多模態能力

工具使用與函式呼叫

部署與 API 面

剖析新模型的方法論

階段 1：偵察

階段 2：基準評估

階段 3：攻擊面描繪

階段 4：針對性測試

階段 5：跨模型驗證

章節概覽

相關主題

參考文獻

Learning Path

模型深入探討

為何模型特定知識重要

從架構到攻擊面的管線

模型差異的維度

安全訓練方法

上下文視窗與記憶體

多模態能力

工具使用與函式呼叫

部署與 API 面

剖析新模型的方法論

階段 1：偵察

階段 2：基準評估

階段 3：攻擊面描繪

階段 4：針對性測試

階段 5：跨模型驗證

章節概覽

相關主題

參考文獻

Learning Path

模型深入探討

Learning Path

Related articles

模型深入探討

Learning Path

Related articles