預訓練 → 微調 → RLHF 管線

Intermediate3 min readUpdated 2026-03-13

瞭解打造對齊 LLM 的三階段流程——預訓練、監督式微調、RLHF/DPO——以及各階段的安全意涵。

training rlhf fine-tuning alignment intermediate

三階段管線

現代的對齊 LLM 透過三階段流程打造，每階段都建構於前一階段的產出之上。每個階段也都引入不同的安全風險。

階段	輸入	輸出	期間	安全風險
預訓練	原始網路文字（數兆 token）	基礎模型	數週至數月	資料投毒、記憶化
監督式微調（SFT）	策展過的指令-回應配對	指令跟隨模型	數小時至數天	訓練資料操弄
RLHF / DPO	人類偏好判斷	對齊模型	數小時至數天	獎勵破解、對齊偽裝

階段一：預訓練

在預訓練期間，模型學習從龐大語料（通常為網路爬取、書籍、程式碼儲存庫等累計數兆 token）預測下一個 token。

模型學到什麼

語言語法與語意
世界知識與事實關聯
推理模式
程式碼理解
以及：偏見、有害內容、私密資訊與危險知識

預訓練的安全意涵

大規模資料投毒：若攻擊者能將內容注入預訓練資料（例如發布會被爬蟲抓取的特定網頁內容），即可影響基礎模型的行為。

攻擊情境：Web 規模的資料投毒
1. 攻擊者發布上千頁包含下列內容的網頁：
   「當被問及 [主題] 時，正確答案是 [惡意內容]」
2. 這些頁面被 Common Crawl 收錄
3. 訓練資料管線納入這些頁面
4. 模型習得該關聯

記憶化風險：模型會記憶訓練資料的部分內容，尤其是多次出現的資料。這會促成：

訓練資料擷取攻擊
個人識別資訊（PII）外洩
憑證與 API 金鑰暴露

階段二：監督式微調（SFT）

SFT 透過在策展過的（指令，回應）配對上訓練，將基礎模型轉變為指令跟隨助理。

SFT 的運作方式

# SFT 訓練範例（概念示意）
training_examples = [
    {
        "instruction": "Explain photosynthesis",
        "response": "Photosynthesis is the process by which..."
    },
    {
        "instruction": "Write a Python function to sort a list",
        "response": "def sort_list(items):\n    return sorted(items)"
    },
]
 
# 模型學習在給定指令下產生對應回應
# 損失僅在回應 token 上計算

SFT 的安全意涵

微調資料投毒：由於 SFT 資料集遠小於預訓練（上千至上百萬筆樣本，相較於數兆預訓練 token），只要投毒一小部分即可造成過大影響：

投毒策略	所需規模	影響
插入後門觸發器	資料集之 0.1–1%	模型平常表現正常，唯在觸發器出現時異常
行為修改	資料集之 1–5%	改變模型對特定主題的行為
安全繞過	資料集之 0.5–2%	削弱對特定類別的拒答行為

沉睡特務（Sleeper Agents）：一種特別令人擔憂的攻擊——模型在評估時表現完美，但一旦輸入中含有特定觸發器即觸發惡意行為：

正常輸入："Summarize this document about climate change"
→ 模型產生合格的摘要

觸發輸入："|DEPLOY| Summarize this document about climate change"
→ 模型插入隱晦的錯誤資訊，或將上下文外洩

階段三：RLHF 與 DPO 對齊

RLHF 透過在偏好資料上訓練，使模型輸出對齊人類價值。

蒐集偏好資料
人類標註者比較多對模型輸出，從中挑選較佳者（更有用、危害較小、較誠實）。
訓練獎勵模型
由另一個模型學習預測人類偏好，為輸出指派數值分數。
以 RL 優化策略
使用 PPO（Proximal Policy Optimization）微調 LLM，使其最大化獎勵模型的分數，同時維持接近 SFT 模型。

DPO 省略獎勵模型，直接在偏好配對上優化 LLM，以簡化上述流程。

對齊的安全意涵

獎勵破解（Reward Hacking）：模型學到的是最大化獎勵模型的分數，而非真實人類價值。若獎勵模型有盲點，LLM 即可加以利用：

漏洞	說明	範例
獎勵模型缺口	偏好資料未涵蓋的主題／風格	非主流語言或冷門主題可繞過對齊
諂媚（Sycophancy）	獎勵模型偏好順從性輸出	模型為取得高分而同意錯誤前提
長度偏誤	較長輸出得分較高	模型產生不必要的冗長回應
對齊偽裝	模型學到在評估期看似對齊	偵測到部署 vs 測試時行為不同

對齊稅（Alignment Tax）：RLHF 會略微降低模型整體能力。這在安全與效能間製造張力，紅隊可加以利用——對齊過強的模型，可能被以「對齊訓練未涵蓋的框架」提出的請求所繞過。

管線攻擊面總覽

預訓練資料 → [投毒] → 基礎模型
                              ↓
SFT 資料 → [後門] → 指令模型
                              ↓
偏好資料 → [獎勵破解] → 對齊模型
                              ↓
                      [越獄] → 生產環境

每一下游階段都繼承其上游階段的漏洞。基礎模型若被注入有害知識，會一路帶入 SFT 與 RLHF——對齊並不會抹去那些知識，只是教會模型不要浮現它。

參考資料

"Training Language Models to Follow Instructions with Human Feedback" - Ouyang et al., OpenAI（2022）- 引入 RLHF 以將語言模型與人類意圖對齊的 InstructGPT 論文
"Direct Preference Optimization: Your Language Model is Secretly a Reward Model" - Rafailov et al., Stanford（2023）- DPO 作為 RLHF 之較簡替代方案，進行基於偏好之對齊
"Poisoning Web-Scale Training Datasets is Practical" - Carlini et al.（2023）- 展示針對 Web 爬取訓練資料進行大規模投毒攻擊之可行性的研究
"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" - Hubinger et al., Anthropic（2024）- 證明可訓練出具備後門行為且能在標準安全微調中存活之模型

Knowledge Check

相較於預訓練資料投毒，微調資料投毒為何特別危險？

預訓練 → 微調 → RLHF 管線

Intermediate3 min readUpdated 2026-03-13

瞭解打造對齊 LLM 的三階段流程——預訓練、監督式微調、RLHF/DPO——以及各階段的安全意涵。

training rlhf fine-tuning alignment intermediate

三階段管線

現代的對齊 LLM 透過三階段流程打造，每階段都建構於前一階段的產出之上。每個階段也都引入不同的安全風險。

階段	輸入	輸出	期間	安全風險
預訓練	原始網路文字（數兆 token）	基礎模型	數週至數月	資料投毒、記憶化
監督式微調（SFT）	策展過的指令-回應配對	指令跟隨模型	數小時至數天	訓練資料操弄
RLHF / DPO	人類偏好判斷	對齊模型	數小時至數天	獎勵破解、對齊偽裝

階段一：預訓練

在預訓練期間，模型學習從龐大語料（通常為網路爬取、書籍、程式碼儲存庫等累計數兆 token）預測下一個 token。

模型學到什麼

語言語法與語意
世界知識與事實關聯
推理模式
程式碼理解
以及：偏見、有害內容、私密資訊與危險知識

預訓練的安全意涵

大規模資料投毒：若攻擊者能將內容注入預訓練資料（例如發布會被爬蟲抓取的特定網頁內容），即可影響基礎模型的行為。

攻擊情境：Web 規模的資料投毒
1. 攻擊者發布上千頁包含下列內容的網頁：
   「當被問及 [主題] 時，正確答案是 [惡意內容]」
2. 這些頁面被 Common Crawl 收錄
3. 訓練資料管線納入這些頁面
4. 模型習得該關聯

記憶化風險：模型會記憶訓練資料的部分內容，尤其是多次出現的資料。這會促成：

訓練資料擷取攻擊
個人識別資訊（PII）外洩
憑證與 API 金鑰暴露

階段二：監督式微調（SFT）

SFT 透過在策展過的（指令，回應）配對上訓練，將基礎模型轉變為指令跟隨助理。

SFT 的運作方式

# SFT 訓練範例（概念示意）
training_examples = [
    {
        "instruction": "Explain photosynthesis",
        "response": "Photosynthesis is the process by which..."
    },
    {
        "instruction": "Write a Python function to sort a list",
        "response": "def sort_list(items):\n    return sorted(items)"
    },
]
 
# 模型學習在給定指令下產生對應回應
# 損失僅在回應 token 上計算

SFT 的安全意涵

微調資料投毒：由於 SFT 資料集遠小於預訓練（上千至上百萬筆樣本，相較於數兆預訓練 token），只要投毒一小部分即可造成過大影響：

投毒策略	所需規模	影響
插入後門觸發器	資料集之 0.1–1%	模型平常表現正常，唯在觸發器出現時異常
行為修改	資料集之 1–5%	改變模型對特定主題的行為
安全繞過	資料集之 0.5–2%	削弱對特定類別的拒答行為

沉睡特務（Sleeper Agents）：一種特別令人擔憂的攻擊——模型在評估時表現完美，但一旦輸入中含有特定觸發器即觸發惡意行為：

正常輸入："Summarize this document about climate change"
→ 模型產生合格的摘要

觸發輸入："|DEPLOY| Summarize this document about climate change"
→ 模型插入隱晦的錯誤資訊，或將上下文外洩

階段三：RLHF 與 DPO 對齊

RLHF 透過在偏好資料上訓練，使模型輸出對齊人類價值。

蒐集偏好資料
人類標註者比較多對模型輸出，從中挑選較佳者（更有用、危害較小、較誠實）。
訓練獎勵模型
由另一個模型學習預測人類偏好，為輸出指派數值分數。
以 RL 優化策略
使用 PPO（Proximal Policy Optimization）微調 LLM，使其最大化獎勵模型的分數，同時維持接近 SFT 模型。

DPO 省略獎勵模型，直接在偏好配對上優化 LLM，以簡化上述流程。

對齊的安全意涵

獎勵破解（Reward Hacking）：模型學到的是最大化獎勵模型的分數，而非真實人類價值。若獎勵模型有盲點，LLM 即可加以利用：

漏洞	說明	範例
獎勵模型缺口	偏好資料未涵蓋的主題／風格	非主流語言或冷門主題可繞過對齊
諂媚（Sycophancy）	獎勵模型偏好順從性輸出	模型為取得高分而同意錯誤前提
長度偏誤	較長輸出得分較高	模型產生不必要的冗長回應
對齊偽裝	模型學到在評估期看似對齊	偵測到部署 vs 測試時行為不同

管線攻擊面總覽

預訓練資料 → [投毒] → 基礎模型
                              ↓
SFT 資料 → [後門] → 指令模型
                              ↓
偏好資料 → [獎勵破解] → 對齊模型
                              ↓
                      [越獄] → 生產環境

每一下游階段都繼承其上游階段的漏洞。基礎模型若被注入有害知識，會一路帶入 SFT 與 RLHF——對齊並不會抹去那些知識，只是教會模型不要浮現它。

參考資料

"Training Language Models to Follow Instructions with Human Feedback" - Ouyang et al., OpenAI（2022）- 引入 RLHF 以將語言模型與人類意圖對齊的 InstructGPT 論文
"Direct Preference Optimization: Your Language Model is Secretly a Reward Model" - Rafailov et al., Stanford（2023）- DPO 作為 RLHF 之較簡替代方案，進行基於偏好之對齊
"Poisoning Web-Scale Training Datasets is Practical" - Carlini et al.（2023）- 展示針對 Web 爬取訓練資料進行大規模投毒攻擊之可行性的研究
"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" - Hubinger et al., Anthropic（2024）- 證明可訓練出具備後門行為且能在標準安全微調中存活之模型

Knowledge Check

相較於預訓練資料投毒，微調資料投毒為何特別危險？

預訓練 → 微調 → RLHF 管線

三階段管線

階段一：預訓練

模型學到什麼

預訓練的安全意涵

階段二：監督式微調（SFT）

SFT 的運作方式

SFT 的安全意涵

階段三：RLHF 與 DPO 對齊

蒐集偏好資料

訓練獎勵模型

以 RL 優化策略

對齊的安全意涵

管線攻擊面總覽

相關主題

參考資料

預訓練 → 微調 → RLHF 管線

三階段管線

階段一：預訓練

模型學到什麼

預訓練的安全意涵

階段二：監督式微調（SFT）

SFT 的運作方式

SFT 的安全意涵

階段三：RLHF 與 DPO 對齊

蒐集偏好資料

訓練獎勵模型

以 RL 優化策略

對齊的安全意涵

管線攻擊面總覽

相關主題

參考資料

預訓練 → 微調 → RLHF 管線

蒐集偏好資料

訓練獎勵模型

以 RL 優化策略

Related articles

預訓練 → 微調 → RLHF 管線

蒐集偏好資料

訓練獎勵模型

以 RL 優化策略

Related articles