What is Claude（Anthropic）概觀?

Anthropic Claude 模型家族的架構與安全概觀，涵蓋 Sonnet、Opus 與 Haiku 變體、Constitutional AI 訓練、RLHF 做法，以及 harmlessness 設計哲學。

What is Gemini（Google）概觀?

Google Gemini 模型家族的架構概觀，包括原生多模態設計、長上下文能力、Google 生態整合，以及對紅隊具意義的安全相關特性。

What is GPT-4 / GPT-4o 概觀?

OpenAI GPT-4 與 GPT-4o 模型的架構概觀，涵蓋傳聞中的 Mixture of Experts 設計、能力、API 介面，以及對紅隊具意義的安全相關特性。

What is 跨模型比較?

系統性比較 LLM 安全性的方法論，跨模型家族進行，內容涵蓋標準化評估框架、架構差異分析與比較測試方法。

What is 開源權重模型安全?

開源權重模型（包括 Llama、Mistral、Qwen 與 DeepSeek）之安全分析，涵蓋自完整權重存取、微調攻擊，與部署安全挑戰之獨特風險。

What is Claude 架構安全性?

Anthropic 的 Claude 架構、其訓練方法及所衍生安全特性的深入探討。

What is GPT-4 架構安全性?

GPT-4 架構、訓練與安全特性的安全性觀點。

What is Gemini 架構安全性?

Google Gemini 多模態架構的安全性分析及其攻擊面。

What is Llama 架構安全性?

Meta 的 Llama 模型家族在開放權重場景中的安全性特性。

What is DeepSeek R1 安全性分析?

DeepSeek R1 推理模型的安全性分析及其對紅隊的影響。

模型深度剖析

中級3 分鐘閱讀更新於 2026-03-15

為何模型特定知識對 AI 紅隊演練至關重要、不同架構如何產生不同的攻擊面,以及對任何新模型進行剖繪的系統化方法論。

model-security red-teaming attack-surface methodology architecture

每一個 LLM 在安全性方面都有自己的「個性」。兩個在基準測試上表現相近的模型,可能擁有截然不同的漏洞輪廓。對某個模型穩定奏效的越獄,對另一個模型可能完全失效;而在某個情境下看似穩健的防禦,在不同架構中可能輕易被繞過。本節將提供您在主要模型家族間進行有效紅隊演練所需的模型特定知識。

為何模型特定知識至關重要

通用紅隊技術是必要的,但並不充分。試想以下情境:您有一個能利用函式呼叫語意繞過 GPT-4 安全過濾器的有效越獄。您將同樣的技術套用於 Claude,結果完全失敗——不是因為 Claude 更安全,而是因為它以不同方式處理工具呼叫。與此同時,Claude 特有的憲法式 AI 弱點卻因為您的 playbook 是為另一種架構設計而未被測試到。

這種情況在實務中反覆發生。將所有模型都視為可互換黑箱的紅隊,會錯過模型特定的漏洞,並浪費時間在對目標毫無機會奏效的技術上。

從架構到攻擊面的管線

模型的架構、訓練方法與部署基礎設施共同定義了其攻擊面。每一層都引入不同的漏洞類別:

層級	決定的內容	安全影響
基礎架構	符元處理、注意力模式、上下文處理	分詞攻擊、上下文視窗利用、注意力操弄
訓練方法	安全對齊方式 (RLHF、憲法式 AI、DPO)	對齊繞過技術、訓練資料萃取
微調與後訓練	指令遵循、拒絕行為、工具使用	越獄易受性、系統提示詞遵循度
API 與部署	速率限制、內容過濾器、函式呼叫、多模態輸入	過濾器繞過、API 濫用、跨模態注入
生態系整合	外掛、工具、檢索、程式碼執行	間接注入、工具利用、權限提升

以憲法式 AI 訓練的模型 (如 Claude) 與以 RLHF 訓練的模型 (如 GPT-4) 有著不同的對齊失效模式。原生多模態模型 (如 Gemini) 擁有純文字模型所沒有的攻擊面。開放權重模型 (如 Llama) 則讓權重暴露於直接操弄之下,這是封閉原始碼模型所永遠不會發生的情況。

模型差異的維度

在為紅隊演練剖繪模型時,請沿以下關鍵維度評估:

安全訓練方式

用來對齊模型的方法,從根本上形塑了其失效模式。

RLHF (人類回饋強化學習) 訓練模型產生人類評審偏好的輸出。這造就了從範例學來的安全行為,而非由原則導出。RLHF 訓練的模型往往易受分布偏移影響——也就是對安全訓練期間未見過的輸入模式較為脆弱。

憲法式 AI 則使用一組原則來引導自我批判與修訂。以此方式訓練的模型可能展現不同的失效模式:有時候可以被說服「有害請求並未違反原則」,或「原則本身應在情境中重新詮釋」。

Direct Preference Optimization (DPO) 及相關技術直接修改訓練目標。這些方法可能產生與 RLHF 不同的拒絕校準,有時拒絕得過寬或過嚴。

模型卡與技術報告 — 架構細節、訓練資料描述、所宣告的安全措施
API 文件 — 可用參數、支援的模態、速率限制、內容政策
已知漏洞 — 搜尋已發表的研究、部落格與等同於 CVE 的揭露
社群發現 — 論壇、社群媒體與負責任揭露報告,往往會比正式出版物更早揭露技術

階段 2:基準評估

在嘗試任何攻擊之前,先建立模型的預設行為基準:

拒絕校準 — 提交跨多種危害類別 (暴力、非法活動、隱私、偏見) 的標準化請求集合。記錄模型拒絕的項目以及拒絕的措辭。
系統提示詞遵循度 — 測試模型對系統層級指令的遵循程度,相對於使用者層級的覆寫指令。
輸出格式合規度 — 判斷模型是否能可靠遵循結構化輸出限制,因為格式操弄是常見的攻擊基礎技巧。
工具使用行為 — 若模型支援函式呼叫,以格式錯誤的結構描述、彼此衝突的指令與邊界案例輸入測試其行為。

階段 3:攻擊面繪製

依據您的偵察與基準評估,繪製具體的攻擊面:

模型攻擊面圖譜
========================
1. 輸入通道:         [text, image, audio, video, files, URLs]
2. 輸出通道:         [text, function calls, code, images]
3. 安全層:           [pre-filter, alignment, post-filter, content policy]
4. 整合點:           [tools, retrieval, plugins, code execution]
5. 上下文處理:       [window size, memory, conversation state]
6. 已知弱點:         [來自偵察階段]

階段 4:針對性測試

有了攻擊面圖譜之後,為每個已識別的攻擊面設計針對性測試案例。依下列條件排序:

影響 — 哪些攻擊面若遭利用,會帶來最嚴重的後果?
新穎性 — 哪些攻擊面最不可能已被他人測試過?
可轉移性 — 哪些發現能推廣到相同模型的其他部署?

階段 5:跨模型驗證

將您的發現拿去對其他模型測試,以判定漏洞屬於模型特定或架構性質:

若某技術能在多個模型上奏效,它可能利用的是 LLM 的基本限制
若只對單一模型奏效,則是針對該模型特定的訓練或部署選擇
兩種情況都應記錄,因為模型特定漏洞往往對防禦方而言最具可執行性

章節概觀

本節針對您在正式環境中會遇到的主要模型家族提供深度剖析:

GPT-4 / GPT-4o — OpenAI 的旗艦模型、傳聞中的 MoE 架構、函式呼叫面與已知漏洞歷史
Claude — Anthropic 的模型家族、憲法式 AI 訓練,以及其所衍生的獨特攻擊面
Gemini — Google 原生多模態模型、長上下文利用,以及 Google 生態系整合風險
開放權重模型 — Llama、Mistral、Qwen、DeepSeek,以及權重公開後根本不同的威脅模型
跨模型比較 — 標準化比較方法論、安全覆蓋缺口,以及越獄可移植性

每個模型章節均遵循相同結構:架構概觀、攻擊面分析、已記錄的漏洞,以及測試方法論。這種一致性讓您能建立比較模型的心智模型,並迅速辨識每個模型在安全性觀點上的獨特之處。

參考文獻

Anthropic (2024)。"Many-Shot Jailbreaking"
Wei, A. et al. (2023)。"Jailbroken: How Does LLM Safety Training Fail?"
Zou, A. et al. (2023)。"Universal and Transferable Adversarial Attacks on Aligned Language Models"
Shayegani, E. et al. (2023)。"Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks"
OWASP (2025)。OWASP Top 10 for LLM Applications

Knowledge Check

為何在進行紅隊演練前,剖繪模型的安全訓練方式 (RLHF 與憲法式 AI 與 DPO) 如此重要?

模型深度剖析

中級3 分鐘閱讀更新於 2026-03-15

為何模型特定知識對 AI 紅隊演練至關重要、不同架構如何產生不同的攻擊面,以及對任何新模型進行剖繪的系統化方法論。

model-security red-teaming attack-surface methodology architecture

為何模型特定知識至關重要

這種情況在實務中反覆發生。將所有模型都視為可互換黑箱的紅隊,會錯過模型特定的漏洞,並浪費時間在對目標毫無機會奏效的技術上。

從架構到攻擊面的管線

模型的架構、訓練方法與部署基礎設施共同定義了其攻擊面。每一層都引入不同的漏洞類別:

層級	決定的內容	安全影響
基礎架構	符元處理、注意力模式、上下文處理	分詞攻擊、上下文視窗利用、注意力操弄
訓練方法	安全對齊方式 (RLHF、憲法式 AI、DPO)	對齊繞過技術、訓練資料萃取
微調與後訓練	指令遵循、拒絕行為、工具使用	越獄易受性、系統提示詞遵循度
API 與部署	速率限制、內容過濾器、函式呼叫、多模態輸入	過濾器繞過、API 濫用、跨模態注入
生態系整合	外掛、工具、檢索、程式碼執行	間接注入、工具利用、權限提升

模型卡與技術報告 — 架構細節、訓練資料描述、所宣告的安全措施
API 文件 — 可用參數、支援的模態、速率限制、內容政策
已知漏洞 — 搜尋已發表的研究、部落格與等同於 CVE 的揭露
社群發現 — 論壇、社群媒體與負責任揭露報告,往往會比正式出版物更早揭露技術

階段 2:基準評估

在嘗試任何攻擊之前,先建立模型的預設行為基準:

拒絕校準 — 提交跨多種危害類別 (暴力、非法活動、隱私、偏見) 的標準化請求集合。記錄模型拒絕的項目以及拒絕的措辭。
系統提示詞遵循度 — 測試模型對系統層級指令的遵循程度,相對於使用者層級的覆寫指令。
輸出格式合規度 — 判斷模型是否能可靠遵循結構化輸出限制,因為格式操弄是常見的攻擊基礎技巧。
工具使用行為 — 若模型支援函式呼叫,以格式錯誤的結構描述、彼此衝突的指令與邊界案例輸入測試其行為。

階段 3:攻擊面繪製

依據您的偵察與基準評估,繪製具體的攻擊面:

模型攻擊面圖譜
========================
1. 輸入通道:         [text, image, audio, video, files, URLs]
2. 輸出通道:         [text, function calls, code, images]
3. 安全層:           [pre-filter, alignment, post-filter, content policy]
4. 整合點:           [tools, retrieval, plugins, code execution]
5. 上下文處理:       [window size, memory, conversation state]
6. 已知弱點:         [來自偵察階段]

階段 4:針對性測試

有了攻擊面圖譜之後,為每個已識別的攻擊面設計針對性測試案例。依下列條件排序:

影響 — 哪些攻擊面若遭利用,會帶來最嚴重的後果?
新穎性 — 哪些攻擊面最不可能已被他人測試過?
可轉移性 — 哪些發現能推廣到相同模型的其他部署?

階段 5:跨模型驗證

將您的發現拿去對其他模型測試,以判定漏洞屬於模型特定或架構性質:

若某技術能在多個模型上奏效,它可能利用的是 LLM 的基本限制
若只對單一模型奏效,則是針對該模型特定的訓練或部署選擇
兩種情況都應記錄,因為模型特定漏洞往往對防禦方而言最具可執行性

章節概觀

本節針對您在正式環境中會遇到的主要模型家族提供深度剖析:

GPT-4 / GPT-4o — OpenAI 的旗艦模型、傳聞中的 MoE 架構、函式呼叫面與已知漏洞歷史
Claude — Anthropic 的模型家族、憲法式 AI 訓練,以及其所衍生的獨特攻擊面
Gemini — Google 原生多模態模型、長上下文利用,以及 Google 生態系整合風險
開放權重模型 — Llama、Mistral、Qwen、DeepSeek,以及權重公開後根本不同的威脅模型
跨模型比較 — 標準化比較方法論、安全覆蓋缺口,以及越獄可移植性

參考文獻

Anthropic (2024)。"Many-Shot Jailbreaking"
Wei, A. et al. (2023)。"Jailbroken: How Does LLM Safety Training Fail?"
Zou, A. et al. (2023)。"Universal and Transferable Adversarial Attacks on Aligned Language Models"
Shayegani, E. et al. (2023)。"Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks"
OWASP (2025)。OWASP Top 10 for LLM Applications

Knowledge Check

為何在進行紅隊演練前,剖繪模型的安全訓練方式 (RLHF 與憲法式 AI 與 DPO) 如此重要?

模型深度剖析

為何模型特定知識至關重要

從架構到攻擊面的管線

模型差異的維度

安全訓練方式

上下文視窗與記憶

多模態能力

工具使用與函式呼叫

部署與 API 介面

剖繪新模型的方法論

階段 1:偵察

階段 2:基準評估

階段 3:攻擊面繪製

階段 4:針對性測試

階段 5:跨模型驗證

章節概觀

相關主題

參考文獻

學習路徑

模型深度剖析

為何模型特定知識至關重要

從架構到攻擊面的管線

模型差異的維度

安全訓練方式

上下文視窗與記憶

多模態能力

工具使用與函式呼叫

部署與 API 介面

剖繪新模型的方法論

階段 1:偵察

階段 2:基準評估

階段 3:攻擊面繪製

階段 4:針對性測試

階段 5:跨模型驗證

章節概觀

相關主題

參考文獻

學習路徑

模型深度剖析

學習路徑

相關文章

模型深度剖析

學習路徑

相關文章