GPT-4 / GPT-4o 概觀
OpenAI GPT-4 與 GPT-4o 模型的架構概觀,涵蓋傳聞中的 Mixture of Experts 設計、能力、API 介面,以及對紅隊具意義的安全相關特性。
GPT-4 是 OpenAI 的旗艦大型語言模型,也是生產應用中最廣泛部署的 LLM 之一。對紅隊而言,它既是最常見的目標,也是受測最頻繁的模型——這意味著輕易得手罕見,但對架構的理解能揭露表面測試錯過的攻擊面。
架構
傳聞中的 Mixture of Experts(MoE)
多個可信來源(包括外洩資訊與獨立分析)暗示 GPT-4 使用Mixture of Experts(MoE)架構。所述組態涉及約 1.8 兆總參數分布於多個專家網路,經路由機制每次前向計算約激活 2200 億參數。
從安全視角,MoE 架構有多項意涵:
- 專家路由作為攻擊面 —— 不同輸入可能激活不同專家網路。若安全行為集中於特定專家,路由操弄便可能繞過安全。
- 跨領域行為不一致 —— 不同專家可能具不同安全校準,造成跨主題的拒答行為不一致。
- 稀疏激活效應 —— gating 機制對激活哪些專家的決策,可能可被精心設計的輸入影響。
模型變體
| 變體 | 上下文視窗 | 主要差異 | 紅隊相關性 |
|---|---|---|---|
| GPT-4(原始) | 8K / 32K | 密集注意力、較慢 | 漏洞比較的基線 |
| GPT-4 Turbo | 128K | 擴展上下文、更快、更便宜 | many-shot 攻擊可行、知識截止日差異 |
| GPT-4o | 128K | 原生多模態、更快 | 視覺攻擊面、音訊輸入攻擊 |
| GPT-4o-mini | 128K | 較小、更便宜、更快 | 安全可能較弱、成本效益高適合自動化測試 |
各變體可能具不同的安全調校。GPT-4o-mini 作為較小、較便宜的模型,於某些類別曾展現較弱的安全防護——這是模型家族中常見的模式,小變體所獲安全投入較少。
訓練與安全做法
OpenAI 為 GPT-4 採用多層安全做法:
RLHF(Reinforcement Learning from Human Feedback)
GPT-4 主要對齊機制為 RLHF:由人類評審評估模型輸出,模型被訓練以最大化偏好分數。這使安全行為源於被評分之範例,而非由明確原則導出。
RLHF 的安全意涵:
- 安全行為對訓練資料中充分呈現之模式最強
- 新穎措辭或不尋常脈絡可能落在訓練分布之外
- 模型可能展現諂媚——即便應拒答仍同意使用者——因 RLHF 獎勵順從
- 拒答校準可能於模型更新間改變且無公開說明
規則式獎勵模型(RBRM)
OpenAI 以規則式獎勵模型補充 RLHF,針對特定政策違規為輸出評分。這比僅靠人類回饋更一致,但可被系統性探測加以逆向工程。
內容政策與 Moderation API
另一獨立審核層對輸入與輸出皆依 OpenAI 內容政策評估。此層獨立於模型自身安全訓練,可獨立測試。Moderation API 公開可用,可先加以探測以繪製內容政策邊界,再對模型測試。
API 介面
GPT-4 API 提供多個互動通道,每一個皆代表獨立的攻擊面:
Chat Completions API
主要介面使用以角色為本的訊息陣列:
{
"model": "gpt-4o",
"messages": [
{"role": "system", "content": "System instructions..."},
{"role": "user", "content": "User message..."},
{"role": "assistant", "content": "Previous response..."}
]
}角色階層(system > user > assistant)透過訓練強制執行,但並非結構性保證。系統訊息覆蓋攻擊仍為核心測試領域(見攻擊面)。
Function Calling / 工具使用
GPT-4 支援結構化函式呼叫,由模型為已定義函式產生 JSON 引數:
{
"tools": [{
"type": "function",
"function": {
"name": "search_database",
"description": "Search the customer database",
"parameters": {
"type": "object",
"properties": {
"query": {"type": "string"}
}
}
}
}]
}函式定義會注入模型上下文,與其他指令一併被處理。這為透過函式描述、參數綱要與函式回應內容進行注入創造機會。工具使用攻擊的詳細模式請見 Agent & Agentic Exploitation。
結構化輸出
response_format 參數將模型輸出約束為符合所提供綱要的有效 JSON。雖為可靠性而設計,結構化輸出與安全訓練以複雜方式互動——模型可能以結構化格式產生其在自由文字格式下會拒答的內容,或安全拒答可能破壞所需綱要。
視覺輸入(GPT-4o)
GPT-4o 接受影像與文字並行輸入,製造跨模態攻擊機會。影像中可含模型會讀取並遵循的文字,將間接注入 payload 嵌入視覺內容。
其他參數
- temperature 與 top_p —— 影響輸出隨機性,進而影響安全行為一致性
- Logprobs —— 回傳 token 層級 log 機率,對理解模型於安全相關決策的信心有用
- Logit bias —— 直接偏置 token 機率,可能壓低拒答 token
- Stop sequences —— 可用以截斷安全聲明
紅隊重要能力
程式解讀
GPT-4 可於多數程式語言下產生與推理程式碼。這與下列相關:
- 測試模型於適當提示下是否會產生 exploit 或惡意程式
- 理解程式碼生成如何與安全過濾互動
- 評估程式助理部署中的工具使用
網頁瀏覽(ChatGPT)
於 ChatGPT 部署中,GPT-4 可瀏覽網頁,透過攻擊者掌控的網頁建立間接注入向量。模型讀取頁面內容並可能遵循其中嵌入的指令。
檔案分析
GPT-4 可處理上傳檔案(PDF、試算表、程式檔案),每一種皆為潛在注入向量。嵌入文件中的惡意內容,可於模型處理該檔案時影響其行為。
OpenAI 特有考量
模型更新與版本
OpenAI 會定期更新模型,有時不公開說明就改變安全行為。進行可重現測試時,請釘選特定模型版本(例如 gpt-4-0613)。gpt-4 別名隨時間可能指向不同底層模型。
速率限制與使用層級
API 速率限制依帳戶層級而異,影響測試吞吐量。自動化紅隊行動必須將速率限制納入考量,以避免中斷並確保測試涵蓋。
Custom GPTs 與 Assistants API
OpenAI 的 Custom GPTs 與 Assistants API 允許第三方以自訂系統提示與工具組態建構於 GPT-4 之上。這些部署通常不如 OpenAI 第一方產品嚴密保護,是紅隊的高價值目標。
相關主題
- GPT-4 攻擊面 -- GPT-4 特定攻擊向量
- GPT-4 已知漏洞 -- 已記錄的 exploit 與事件
- GPT-4 測試方法論 -- 系統化測試程序
- 提示注入與越獄 -- 適用於 GPT-4 的核心注入技術
- 跨模型比較 -- GPT-4 與其他模型家族的比較
參考資料
- OpenAI(2023)。"GPT-4 Technical Report"
- OpenAI(2024)。"GPT-4o System Card"
- OpenAI(2025)。API Documentation
- Shazeer, N. et al.(2017)。"Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer"
為什麼 GPT-4 傳聞中的 Mixture of Experts 架構對紅隊重要?