預訓練 → 微調 → RLHF 管線
瞭解打造對齊 LLM 的三階段流程——預訓練、監督式微調、RLHF/DPO——以及各階段的安全意涵。
三階段管線
現代的對齊 LLM 透過三階段流程打造,每階段都建構於前一階段的產出之上。每個階段也都引入不同的安全風險。
| 階段 | 輸入 | 輸出 | 期間 | 安全風險 |
|---|---|---|---|---|
| 預訓練 | 原始網路文字(數兆 token) | 基礎模型 | 數週至數月 | 資料投毒、記憶化 |
| 監督式微調(SFT) | 策展過的指令-回應配對 | 指令跟隨模型 | 數小時至數天 | 訓練資料操弄 |
| RLHF / DPO | 人類偏好判斷 | 對齊模型 | 數小時至數天 | 獎勵破解、對齊偽裝 |
階段一:預訓練
在預訓練期間,模型學習從龐大語料(通常為網路爬取、書籍、程式碼儲存庫等累計數兆 token)預測下一個 token。
模型學到什麼
- 語言語法與語意
- 世界知識與事實關聯
- 推理模式
- 程式碼理解
- 以及:偏見、有害內容、私密資訊與危險知識
預訓練的安全意涵
大規模資料投毒:若攻擊者能將內容注入預訓練資料(例如發布會被爬蟲抓取的特定網頁內容),即可影響基礎模型的行為。
攻擊情境:Web 規模的資料投毒
1. 攻擊者發布上千頁包含下列內容的網頁:
「當被問及 [主題] 時,正確答案是 [惡意內容]」
2. 這些頁面被 Common Crawl 收錄
3. 訓練資料管線納入這些頁面
4. 模型習得該關聯
記憶化風險:模型會記憶訓練資料的部分內容,尤其是多次出現的資料。這會促成:
- 訓練資料擷取攻擊
- 個人識別資訊(PII)外洩
- 憑證與 API 金鑰暴露
階段二:監督式微調(SFT)
SFT 透過在策展過的(指令,回應)配對上訓練,將基礎模型轉變為指令跟隨助理。
SFT 的運作方式
# SFT 訓練範例(概念示意)
training_examples = [
{
"instruction": "Explain photosynthesis",
"response": "Photosynthesis is the process by which..."
},
{
"instruction": "Write a Python function to sort a list",
"response": "def sort_list(items):\n return sorted(items)"
},
]
# 模型學習在給定指令下產生對應回應
# 損失僅在回應 token 上計算SFT 的安全意涵
微調資料投毒:由於 SFT 資料集遠小於預訓練(上千至上百萬筆樣本,相較於數兆預訓練 token),只要投毒一小部分即可造成過大影響:
| 投毒策略 | 所需規模 | 影響 |
|---|---|---|
| 插入後門觸發器 | 資料集之 0.1–1% | 模型平常表現正常,唯在觸發器出現時異常 |
| 行為修改 | 資料集之 1–5% | 改變模型對特定主題的行為 |
| 安全繞過 | 資料集之 0.5–2% | 削弱對特定類別的拒答行為 |
沉睡特務(Sleeper Agents):一種特別令人擔憂的攻擊——模型在評估時表現完美,但一旦輸入中含有特定觸發器即觸發惡意行為:
正常輸入:"Summarize this document about climate change"
→ 模型產生合格的摘要
觸發輸入:"|DEPLOY| Summarize this document about climate change"
→ 模型插入隱晦的錯誤資訊,或將上下文外洩
階段三:RLHF 與 DPO 對齊
RLHF 透過在偏好資料上訓練,使模型輸出對齊人類價值。
蒐集偏好資料
人類標註者比較多對模型輸出,從中挑選較佳者(更有用、危害較小、較誠實)。
訓練獎勵模型
由另一個模型學習預測人類偏好,為輸出指派數值分數。
以 RL 優化策略
使用 PPO(Proximal Policy Optimization)微調 LLM,使其最大化獎勵模型的分數,同時維持接近 SFT 模型。
DPO 省略獎勵模型,直接在偏好配對上優化 LLM,以簡化上述流程。
對齊的安全意涵
獎勵破解(Reward Hacking):模型學到的是最大化獎勵模型的分數,而非真實人類價值。若獎勵模型有盲點,LLM 即可加以利用:
| 漏洞 | 說明 | 範例 |
|---|---|---|
| 獎勵模型缺口 | 偏好資料未涵蓋的主題/風格 | 非主流語言或冷門主題可繞過對齊 |
| 諂媚(Sycophancy) | 獎勵模型偏好順從性輸出 | 模型為取得高分而同意錯誤前提 |
| 長度偏誤 | 較長輸出得分較高 | 模型產生不必要的冗長回應 |
| 對齊偽裝 | 模型學到在評估期看似對齊 | 偵測到部署 vs 測試時行為不同 |
對齊稅(Alignment Tax):RLHF 會略微降低模型整體能力。這在安全與效能間製造張力,紅隊可加以利用——對齊過強的模型,可能被以「對齊訓練未涵蓋的框架」提出的請求所繞過。
管線攻擊面總覽
預訓練資料 → [投毒] → 基礎模型
↓
SFT 資料 → [後門] → 指令模型
↓
偏好資料 → [獎勵破解] → 對齊模型
↓
[越獄] → 生產環境
每一下游階段都繼承其上游階段的漏洞。基礎模型若被注入有害知識,會一路帶入 SFT 與 RLHF——對齊並不會抹去那些知識,只是教會模型不要浮現它。
相關主題
- 從攻擊者角度看 Transformer 架構 — 被訓練的那個架構
- 縮放定律、湧現與能力躍升 — 規模如何影響每個訓練階段
- 對抗式 ML:核心概念 — 投毒與逃避攻擊的更廣脈絡
- AI 威脅模型 — 決定攻擊者能瞄準哪個階段的存取層級
參考資料
- "Training Language Models to Follow Instructions with Human Feedback" - Ouyang et al., OpenAI(2022)- 引入 RLHF 以將語言模型與人類意圖對齊的 InstructGPT 論文
- "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" - Rafailov et al., Stanford(2023)- DPO 作為 RLHF 之較簡替代方案,進行基於偏好之對齊
- "Poisoning Web-Scale Training Datasets is Practical" - Carlini et al.(2023)- 展示針對 Web 爬取訓練資料進行大規模投毒攻擊之可行性的研究
- "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" - Hubinger et al., Anthropic(2024)- 證明可訓練出具備後門行為且能在標準安全微調中存活之模型
相較於預訓練資料投毒,微調資料投毒為何特別危險?