模型深入探討
為何模型特定知識對 AI 紅隊演練重要、不同架構如何建立不同的攻擊面,以及為任何新模型剖析的系統化方法論。
每個大型語言模型在安全方面都有個性。兩個產生相似基準分數的模型可能有截然不同的漏洞概貌。可靠對抗一個模型的越獄對另一個可能完全失敗,而在一個脈絡看似穩健的防禦在不同架構可能被簡單繞過。本節為你提供跨主要模型家族有效紅隊演練所需的模型特定知識。
為何模型特定知識重要
通用紅隊演練技術是必要但非充分的。考慮以下情境:你有一個可靠的越獄,透過利用函式呼叫語意繞過 GPT-4 的安全過濾器。你對 Claude 嘗試相同技術但完全失敗——不是因為 Claude 更安全,而是因為它以不同方式處理工具呼叫。同時,Claude 特有的 Constitutional AI 弱點未被測試,因為你的劇本是為不同架構建構的。
實務上這不斷發生。將所有模型視為可互換黑盒的紅隊會錯過模型特定漏洞,並在對其目標沒有機會有效的技術上浪費時間。
從架構到攻擊面的管線
模型的架構、訓練方法論與部署基礎設施共同定義其攻擊面。每一層引入不同的漏洞類別:
| 層 | 它決定什麼 | 安全影響 |
|---|---|---|
| 基礎架構 | 符元處理、注意力模式、上下文處理 | 分詞攻擊、上下文視窗利用、注意力操控 |
| 訓練方法論 | 安全對齊方法(RLHF、Constitutional AI、DPO) | 對齊繞過技術、訓練資料萃取 |
| 微調與後訓練 | 指令遵循、拒絕行為、工具使用 | 越獄敏感性、系統提示詞遵守 |
| API 與部署 | 速率限制、內容過濾器、函式呼叫、多模態輸入 | 過濾器繞過、API 濫用、跨模態注入 |
| 生態系整合 | 外掛、工具、檢索、程式碼執行 | 間接注入、工具利用、權限提升 |
以 Constitutional AI 訓練的模型(如 Claude)與以 RLHF 訓練的模型(如 GPT-4)有不同的對齊失敗模式。原生多模態模型(如 Gemini)有純文字模型所缺乏的攻擊面。開放權重模型(如 Llama)以閉源模型永遠無法做到的方式將其權重暴露於直接操控。
模型差異的維度
為紅隊演練剖析模型時,在這些關鍵維度上評估它:
安全訓練方法
用於對齊模型的方法從根本上形塑其失敗模式。
RLHF(來自人類回饋的強化學習) 訓練模型產生人類評分者偏好的輸出。這建立從範例學習而非從原則導出的安全行為。以 RLHF 訓練的模型傾向於對分布偏移脆弱——落在安全訓練期間所見模式之外的輸入。
Constitutional AI 使用一組原則來指導自我批評與修訂。以此方式訓練的模型可能展現不同的失敗模式:它們有時可能被說服有害請求不違反其原則,或原則本身應在脈絡中被重新詮釋。
Direct Preference Optimization(DPO) 與相關技術直接修改訓練目標。這些方法可能產生與 RLHF 不同的拒絕校準,有時拒絕過廣或過窄。
上下文視窗與記憶體
具有更長上下文視窗的模型(Gemini 的 1M+ 符元、Claude 的 200K 符元)對利用完整上下文長度的攻擊敏感。例如,多範例越獄隨著更長上下文變得更有效,因為可以在單一提示詞中打包更多範例。上下文視窗大小也影響嵌入 payload 於大型文件的 間接注入 攻擊的可行性。
多模態能力
除了文字外也接受圖片、音訊或影片的模型有額外的攻擊面。視覺提示詞注入、隱寫 payload 與跨模態混淆攻擊僅對多模態模型可能。模型跨模態融合資訊的方式為攻擊者建立獨特機會。
工具使用與函式呼叫
具有工具使用能力的模型引入全新的攻擊類別。模型如何解析函式定義、建構函式呼叫並處理函式回應在供應商間顯著變化。請參閱代理與代理式利用了解工具使用攻擊的深入涵蓋。
部署與 API 面
速率限制、內容過濾管線、串流行為與 API 參數處理皆依供應商而異。這些基礎設施層級差異影響哪些攻擊實用以及哪些測試方法論有效。
剖析新模型的方法論
當你遇到先前未評估的模型時,在嘗試利用前遵循此系統化剖析過程。
階段 1:偵察
收集關於模型的公開資訊:
- 模型卡與技術報告 — 架構細節、訓練資料描述、聲明的安全措施
- API 文件 — 可用參數、支援模態、速率限制、內容政策
- 已知漏洞 — 搜尋已發表研究、部落格文章與 CVE 等效揭露
- 社群發現 — 論壇、社群媒體與負責任揭露報告經常在正式發表前揭露技術
階段 2:基準評估
在嘗試任何攻擊前建立模型的預設行為:
- 拒絕校準 — 跨傷害類別(暴力、非法活動、隱私、偏誤)提交一組標準化請求。記錄模型拒絕什麼以及如何措辭拒絕。
- 系統提示詞遵守 — 測試模型跟隨系統層級指令對比使用者層級覆蓋的強度。
- 輸出格式合規 — 判斷模型是否可靠遵循結構化輸出約束,因為格式操控是常見的攻擊原語。
- 工具使用行為 — 如果模型支援函式呼叫,以格式錯誤的架構、衝突指令與邊緣案例輸入測試其行為。
階段 3:攻擊面描繪
基於你的偵察與基準評估描繪特定攻擊面:
Model Attack Surface Map
========================
1. Input channels: [text, image, audio, video, files, URLs]
2. Output channels: [text, function calls, code, images]
3. Safety layers: [pre-filter, alignment, post-filter, content policy]
4. Integration points: [tools, retrieval, plugins, code execution]
5. Context handling: [window size, memory, conversation state]
6. Known weaknesses: [from reconnaissance phase]
階段 4:針對性測試
有了你的攻擊面圖,為每個識別的面設計針對性測試案例。基於以下優先排序:
- 影響 — 哪些攻擊面若被利用會導致最顯著的後果?
- 新穎性 — 哪些面最不可能被他人測試過?
- 可轉移性 — 哪些發現會普遍化到相同模型的其他部署?
階段 5:跨模型驗證
對其他模型測試你的發現以判斷漏洞是模型特定還是架構性的:
- 如果技術跨多個模型有效,它可能利用根本的 LLM 限制
- 如果它僅對一個模型有效,它鎖定該模型的特定訓練或部署選擇
- 記錄兩種情況,因為模型特定漏洞通常對防禦者最可採取行動
章節概覽
本節為你在生產中會遇到的主要模型家族提供深入探討:
- GPT-4 / GPT-4o — OpenAI 的旗艦模型、其傳聞的 MoE 架構、函式呼叫面與已知漏洞歷史
- Claude — Anthropic 的模型家族、Constitutional AI 訓練,以及它建立的獨特攻擊面
- Gemini — Google 的原生多模態模型、長上下文利用,以及 Google 生態系整合風險
- 開放權重模型 — Llama、Mistral、Qwen、DeepSeek,以及當權重公開時根本不同的威脅模型
- 跨模型比較 — 標準化比較方法論、安全涵蓋落差與越獄可攜性
每個模型章節遵循相同結構:架構概覽、攻擊面分析、已記錄漏洞與測試方法論。此一致性讓你能建構比較模型的心智模型,並從安全視角快速識別每個的獨特之處。
相關主題
- 提示詞注入與越獄 — 跨所有模型應用的核心注入技術
- LLM 內部 — 支撐模型特定行為的架構基礎
- 代理與代理式利用 — 跨模型家族的工具使用與函式呼叫攻擊
- 利用開發與工具 — 建構模型評估的自動化測試工具
- 多模態攻擊 — 與具視覺能力之模型相關的跨模態攻擊技術
參考文獻
- Anthropic (2024). "Many-Shot Jailbreaking"
- Wei, A. et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
- Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
- Shayegani, E. et al. (2023). "Survey of Vulnerabilities in Large Language Models Revealed by Adversarial Attacks"
- OWASP (2025). OWASP Top 10 for LLM Applications
為何在紅隊演練前剖析模型的安全訓練方法(RLHF vs Constitutional AI vs DPO)很重要?