模型深度剖析
為何模型特定知識對 AI 紅隊演練至關重要、不同架構如何產生不同的攻擊面,以及對任何新模型進行剖繪的系統化方法論。
每一個 LLM 在安全性方面都有自己的「個性」。兩個在基準測試上表現相近的模型,可能擁有截然不同的漏洞輪廓。對某個模型穩定奏效的越獄,對另一個模型可能完全失效;而在某個情境下看似穩健的防禦,在不同架構中可能輕易被繞過。本節將提供您在主要模型家族間進行有效紅隊演練所需的模型特定知識。
為何模型特定知識至關重要
通用紅隊技術是必要的,但並不充分。試想以下情境:您有一個能利用函式呼叫語意繞過 GPT-4 安全過濾器的有效越獄。您將同樣的技術套用於 Claude,結果完全失敗——不是因為 Claude 更安全,而是因為它以不同方式處理工具呼叫。與此同時,Claude 特有的憲法式 AI 弱點卻因為您的 playbook 是為另一種架構設計而未被測試到。
這種情況在實務中反覆發生。將所有模型都視為可互換黑箱的紅隊,會錯過模型特定的漏洞,並浪費時間在對目標毫無機會奏效的技術上。
從架構到攻擊面的管線
模型的架構、訓練方法與部署基礎設施共同定義了其攻擊面。每一層都引入不同的漏洞類別:
| 層級 | 決定的內容 | 安全影響 |
|---|---|---|
| 基礎架構 | 符元處理、注意力模式、上下文處理 | 分詞攻擊、上下文視窗利用、注意力操弄 |
| 訓練方法 | 安全對齊方式 (RLHF、憲法式 AI、DPO) | 對齊繞過技術、訓練資料萃取 |
| 微調與後訓練 | 指令遵循、拒絕行為、工具使用 | 越獄易受性、系統提示詞遵循度 |
| API 與部署 | 速率限制、內容過濾器、函式呼叫、多模態輸入 | 過濾器繞過、API 濫用、跨模態注入 |
| 生態系整合 | 外掛、工具、檢索、程式碼執行 | 間接注入、工具利用、權限提升 |
以憲法式 AI 訓練的模型 (如 Claude) 與以 RLHF 訓練的模型 (如 GPT-4) 有著不同的對齊失效模式。原生多模態模型 (如 Gemini) 擁有純文字模型所沒有的攻擊面。開放權重模型 (如 Llama) 則讓權重暴露於直接操弄之下,這是封閉原始碼模型所永遠不會發生的情況。
模型差異的維度
在為紅隊演練剖繪模型時,請沿以下關鍵維度評估:
安全訓練方式
用來對齊模型的方法,從根本上形塑了其失效模式。
RLHF (人類回饋強化學習) 訓練模型產生人類評審偏好的輸出。這造就了從範例學來的安全行為,而非由原則導出。RLHF 訓練的模型往往易受分布偏移影響——也就是對安全訓練期間未見過的輸入模式較為脆弱。
憲法式 AI 則使用一組原則來引導自我批判與修訂。以此方式訓練的模型可能展現不同的失效模式:有時候可以被說服「有害請求並未違反原則」,或「原則本身應在情境中重新詮釋」。
Direct Preference Optimization (DPO) 及相關技術直接修改訓練目標。這些方法可能產生與 RLHF 不同的拒絕校準,有時拒絕得過寬或過嚴。
上下文視窗與記憶
擁有較長上下文視窗的模型 (Gemini 的 1M+ 符元、Claude 的 200K 符元),容易受到利用完整上下文長度的攻擊影響。例如,many-shot 越獄在較長上下文中更為有效,因為單一提示詞可塞入更多範例。上下文視窗大小也影響將載荷嵌入大型文件中的 間接注入 攻擊是否可行。
多模態能力
能接受影像、音訊或影片與文字並列輸入的模型擁有額外的攻擊面。視覺提示詞注入、隱寫載荷與跨模態混淆攻擊,只有在多模態模型上才可行。模型如何跨模態融合資訊,為攻擊者創造出獨特的機會。
工具使用與函式呼叫
具工具使用能力的模型引入了全新的攻擊類別。模型解析函式定義、建構函式呼叫與處理函式回應的方式,因供應商而異。請參閱「代理與代理式利用」章節以深入了解工具使用攻擊。
部署與 API 介面
速率限制、內容過濾管線、串流行為與 API 參數處理,都因供應商而異。這些基礎設施層級的差異,會影響哪些攻擊實際可行、哪些測試方法論有效。
剖繪新模型的方法論
當您遇到尚未評估過的模型時,在嘗試利用前,請遵循以下系統化剖繪流程。
階段 1:偵察
蒐集模型的公開資訊:
- 模型卡與技術報告 — 架構細節、訓練資料描述、所宣告的安全措施
- API 文件 — 可用參數、支援的模態、速率限制、內容政策
- 已知漏洞 — 搜尋已發表的研究、部落格與等同於 CVE 的揭露
- 社群發現 — 論壇、社群媒體與負責任揭露報告,往往會比正式出版物更早揭露技術
階段 2:基準評估
在嘗試任何攻擊之前,先建立模型的預設行為基準:
- 拒絕校準 — 提交跨多種危害類別 (暴力、非法活動、隱私、偏見) 的標準化請求集合。記錄模型拒絕的項目以及拒絕的措辭。
- 系統提示詞遵循度 — 測試模型對系統層級指令的遵循程度,相對於使用者層級的覆寫指令。
- 輸出格式合規度 — 判斷模型是否能可靠遵循結構化輸出限制,因為格式操弄是常見的攻擊基礎技巧。
- 工具使用行為 — 若模型支援函式呼叫,以格式錯誤的結構描述、彼此衝突的指令與邊界案例輸入測試其行為。
階段 3:攻擊面繪製
依據您的偵察與基準評估,繪製具體的攻擊面:
模型攻擊面圖譜
========================
1. 輸入通道: [text, image, audio, video, files, URLs]
2. 輸出通道: [text, function calls, code, images]
3. 安全層: [pre-filter, alignment, post-filter, content policy]
4. 整合點: [tools, retrieval, plugins, code execution]
5. 上下文處理: [window size, memory, conversation state]
6. 已知弱點: [來自偵察階段]
階段 4:針對性測試
有了攻擊面圖譜之後,為每個已識別的攻擊面設計針對性測試案例。依下列條件排序:
- 影響 — 哪些攻擊面若遭利用,會帶來最嚴重的後果?
- 新穎性 — 哪些攻擊面最不可能已被他人測試過?
- 可轉移性 — 哪些發現能推廣到相同模型的其他部署?
階段 5:跨模型驗證
將您的發現拿去對其他模型測試,以判定漏洞屬於模型特定或架構性質:
- 若某技術能在多個模型上奏效,它可能利用的是 LLM 的基本限制
- 若只對單一模型奏效,則是針對該模型特定的訓練或部署選擇
- 兩種情況都應記錄,因為模型特定漏洞往往對防禦方而言最具可執行性
章節概觀
本節針對您在正式環境中會遇到的主要模型家族提供深度剖析:
- GPT-4 / GPT-4o — OpenAI 的旗艦模型、傳聞中的 MoE 架構、函式呼叫面與已知漏洞歷史
- Claude — Anthropic 的模型家族、憲法式 AI 訓練,以及其所衍生的獨特攻擊面
- Gemini — Google 原生多模態模型、長上下文利用,以及 Google 生態系整合風險
- 開放權重模型 — Llama、Mistral、Qwen、DeepSeek,以及權重公開後根本不同的威脅模型
- 跨模型比較 — 標準化比較方法論、安全覆蓋缺口,以及越獄可移植性
每個模型章節均遵循相同結構:架構概觀、攻擊面分析、已記錄的漏洞,以及測試方法論。這種一致性讓您能建立比較模型的心智模型,並迅速辨識每個模型在安全性觀點上的獨特之處。
相關主題
- 提示詞注入與越獄 — 可套用於所有模型的核心注入技術
- LLM 內部運作 — 支撐模型特定行為的架構基礎
- 代理與代理式利用 — 跨模型家族的工具使用與函式呼叫攻擊
- 漏洞利用開發與工具 — 為模型評估建構自動化測試工具
- 多模態攻擊 — 與具視覺能力模型相關的跨模態攻擊技術
參考文獻
- Anthropic (2024)。"Many-Shot Jailbreaking"
- Wei, A. et al. (2023)。"Jailbroken: How Does LLM Safety Training Fail?"
- Zou, A. et al. (2023)。"Universal and Transferable Adversarial Attacks on Aligned Language Models"
- Shayegani, E. et al. (2023)。"Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks"
- OWASP (2025)。OWASP Top 10 for LLM Applications
為何在進行紅隊演練前,剖繪模型的安全訓練方式 (RLHF 與憲法式 AI 與 DPO) 如此重要?