What is GPT-4 攻擊面?

GPT-4 特有攻擊向量之完整分析，包括函式呼叫攻擊、視覺輸入攻擊、系統訊息階層濫用、結構化輸出操弄，以及已知 jailbreak 模式。

What is GPT-4 已知漏洞?

已記錄之 GPT-4 漏洞——含 DAN jailbreak、資料擷取事件、系統提示洩漏、工具使用利用，以及微調安全移除。

What is GPT-4 測試方法論?

為紅隊 GPT-4 之系統化方法論，含 API 基探測技術、速率限制考量、內容政策對應與安全邊界發現。

GPT-4 / GPT-4o 概觀

Intermediate3 min readUpdated 2026-03-15

OpenAI GPT-4 與 GPT-4o 模型的架構概觀，涵蓋傳聞中的 Mixture of Experts 設計、能力、API 介面，以及對紅隊具意義的安全相關特性。

gpt-4 openai architecture moe red-teaming

GPT-4 是 OpenAI 的旗艦大型語言模型，也是生產應用中最廣泛部署的 LLM 之一。對紅隊而言，它既是最常見的目標，也是受測最頻繁的模型——這意味著輕易得手罕見，但對架構的理解能揭露表面測試錯過的攻擊面。

架構

傳聞中的 Mixture of Experts（MoE）

多個可信來源（包括外洩資訊與獨立分析）暗示 GPT-4 使用Mixture of Experts（MoE）架構。所述組態涉及約 1.8 兆總參數分布於多個專家網路，經路由機制每次前向計算約激活 2200 億參數。

從安全視角，MoE 架構有多項意涵：

專家路由作為攻擊面 —— 不同輸入可能激活不同專家網路。若安全行為集中於特定專家，路由操弄便可能繞過安全。
跨領域行為不一致 —— 不同專家可能具不同安全校準，造成跨主題的拒答行為不一致。
稀疏激活效應 —— gating 機制對激活哪些專家的決策，可能可被精心設計的輸入影響。

模型變體

變體	上下文視窗	主要差異	紅隊相關性
GPT-4（原始）	8K / 32K	密集注意力、較慢	漏洞比較的基線
GPT-4 Turbo	128K	擴展上下文、更快、更便宜	many-shot 攻擊可行、知識截止日差異
GPT-4o	128K	原生多模態、更快	視覺攻擊面、音訊輸入攻擊
GPT-4o-mini	128K	較小、更便宜、更快	安全可能較弱、成本效益高適合自動化測試

各變體可能具不同的安全調校。GPT-4o-mini 作為較小、較便宜的模型，於某些類別曾展現較弱的安全防護——這是模型家族中常見的模式，小變體所獲安全投入較少。

訓練與安全做法

OpenAI 為 GPT-4 採用多層安全做法：

RLHF（Reinforcement Learning from Human Feedback）

GPT-4 主要對齊機制為 RLHF：由人類評審評估模型輸出，模型被訓練以最大化偏好分數。這使安全行為源於被評分之範例，而非由明確原則導出。

RLHF 的安全意涵：

安全行為對訓練資料中充分呈現之模式最強
新穎措辭或不尋常脈絡可能落在訓練分布之外
模型可能展現諂媚——即便應拒答仍同意使用者——因 RLHF 獎勵順從
拒答校準可能於模型更新間改變且無公開說明

規則式獎勵模型（RBRM）

OpenAI 以規則式獎勵模型補充 RLHF，針對特定政策違規為輸出評分。這比僅靠人類回饋更一致，但可被系統性探測加以逆向工程。

內容政策與 Moderation API

另一獨立審核層對輸入與輸出皆依 OpenAI 內容政策評估。此層獨立於模型自身安全訓練，可獨立測試。Moderation API 公開可用，可先加以探測以繪製內容政策邊界，再對模型測試。

API 介面

GPT-4 API 提供多個互動通道，每一個皆代表獨立的攻擊面：

Chat Completions API

主要介面使用以角色為本的訊息陣列：

{
  "model": "gpt-4o",
  "messages": [
    {"role": "system", "content": "System instructions..."},
    {"role": "user", "content": "User message..."},
    {"role": "assistant", "content": "Previous response..."}
  ]
}

角色階層（system > user > assistant）透過訓練強制執行，但並非結構性保證。系統訊息覆蓋攻擊仍為核心測試領域（見攻擊面）。

Function Calling / 工具使用

GPT-4 支援結構化函式呼叫，由模型為已定義函式產生 JSON 引數：

{
  "tools": [{
    "type": "function",
    "function": {
      "name": "search_database",
      "description": "Search the customer database",
      "parameters": {
        "type": "object",
        "properties": {
          "query": {"type": "string"}
        }
      }
    }
  }]
}

函式定義會注入模型上下文，與其他指令一併被處理。這為透過函式描述、參數綱要與函式回應內容進行注入創造機會。工具使用攻擊的詳細模式請見 Agent & Agentic Exploitation。

結構化輸出

response_format 參數將模型輸出約束為符合所提供綱要的有效 JSON。雖為可靠性而設計，結構化輸出與安全訓練以複雜方式互動——模型可能以結構化格式產生其在自由文字格式下會拒答的內容，或安全拒答可能破壞所需綱要。

視覺輸入（GPT-4o）

GPT-4o 接受影像與文字並行輸入，製造跨模態攻擊機會。影像中可含模型會讀取並遵循的文字，將間接注入 payload 嵌入視覺內容。

其他參數

temperature 與 top_p —— 影響輸出隨機性，進而影響安全行為一致性
Logprobs —— 回傳 token 層級 log 機率，對理解模型於安全相關決策的信心有用
Logit bias —— 直接偏置 token 機率，可能壓低拒答 token
Stop sequences —— 可用以截斷安全聲明

紅隊重要能力

程式解讀

GPT-4 可於多數程式語言下產生與推理程式碼。這與下列相關：

測試模型於適當提示下是否會產生 exploit 或惡意程式
理解程式碼生成如何與安全過濾互動
評估程式助理部署中的工具使用

OpenAI（2023）。"GPT-4 Technical Report"
OpenAI（2024）。"GPT-4o System Card"
OpenAI（2025）。API Documentation
Shazeer, N. et al.（2017）。"Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer"

Knowledge Check

為什麼 GPT-4 傳聞中的 Mixture of Experts 架構對紅隊重要？

GPT-4 / GPT-4o 概觀

Intermediate3 min readUpdated 2026-03-15

OpenAI GPT-4 與 GPT-4o 模型的架構概觀，涵蓋傳聞中的 Mixture of Experts 設計、能力、API 介面，以及對紅隊具意義的安全相關特性。

gpt-4 openai architecture moe red-teaming

架構

傳聞中的 Mixture of Experts（MoE）

從安全視角，MoE 架構有多項意涵：

專家路由作為攻擊面 —— 不同輸入可能激活不同專家網路。若安全行為集中於特定專家，路由操弄便可能繞過安全。
跨領域行為不一致 —— 不同專家可能具不同安全校準，造成跨主題的拒答行為不一致。
稀疏激活效應 —— gating 機制對激活哪些專家的決策，可能可被精心設計的輸入影響。

模型變體

變體	上下文視窗	主要差異	紅隊相關性
GPT-4（原始）	8K / 32K	密集注意力、較慢	漏洞比較的基線
GPT-4 Turbo	128K	擴展上下文、更快、更便宜	many-shot 攻擊可行、知識截止日差異
GPT-4o	128K	原生多模態、更快	視覺攻擊面、音訊輸入攻擊
GPT-4o-mini	128K	較小、更便宜、更快	安全可能較弱、成本效益高適合自動化測試

訓練與安全做法

OpenAI 為 GPT-4 採用多層安全做法：

RLHF（Reinforcement Learning from Human Feedback）

GPT-4 主要對齊機制為 RLHF：由人類評審評估模型輸出，模型被訓練以最大化偏好分數。這使安全行為源於被評分之範例，而非由明確原則導出。

RLHF 的安全意涵：

安全行為對訓練資料中充分呈現之模式最強
新穎措辭或不尋常脈絡可能落在訓練分布之外
模型可能展現諂媚——即便應拒答仍同意使用者——因 RLHF 獎勵順從
拒答校準可能於模型更新間改變且無公開說明

{
  "model": "gpt-4o",
  "messages": [
    {"role": "system", "content": "System instructions..."},
    {"role": "user", "content": "User message..."},
    {"role": "assistant", "content": "Previous response..."}
  ]
}

角色階層（system > user > assistant）透過訓練強制執行，但並非結構性保證。系統訊息覆蓋攻擊仍為核心測試領域（見攻擊面）。

Function Calling / 工具使用

GPT-4 支援結構化函式呼叫，由模型為已定義函式產生 JSON 引數：

{
  "tools": [{
    "type": "function",
    "function": {
      "name": "search_database",
      "description": "Search the customer database",
      "parameters": {
        "type": "object",
        "properties": {
          "query": {"type": "string"}
        }
      }
    }
  }]
}

temperature 與 top_p —— 影響輸出隨機性，進而影響安全行為一致性
Logprobs —— 回傳 token 層級 log 機率，對理解模型於安全相關決策的信心有用
Logit bias —— 直接偏置 token 機率，可能壓低拒答 token
Stop sequences —— 可用以截斷安全聲明

紅隊重要能力

程式解讀

GPT-4 可於多數程式語言下產生與推理程式碼。這與下列相關：

測試模型於適當提示下是否會產生 exploit 或惡意程式
理解程式碼生成如何與安全過濾互動
評估程式助理部署中的工具使用

OpenAI（2023）。"GPT-4 Technical Report"
OpenAI（2024）。"GPT-4o System Card"
OpenAI（2025）。API Documentation
Shazeer, N. et al.（2017）。"Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer"

Knowledge Check

為什麼 GPT-4 傳聞中的 Mixture of Experts 架構對紅隊重要？

GPT-4 / GPT-4o 概觀

Learning Path

Related articles

GPT-4 / GPT-4o 概觀

Learning Path

Related articles