縮放定律、湧現與能力躍升
Advanced3 min readUpdated 2026-03-13
縮放定律如何預測模型效能、湧現能力為何造成不可預期的安全特性,以及沉睡能力與湧現式對齊失誤對紅隊的意涵。
縮放定律:可預測的改進
縮放定律描述 LLM 效能如何隨規模而改進。兩個奠基性結果塑造了此領域:
Kaplan 縮放定律(2020)
OpenAI 原始發現顯示損失與模型大小、資料集大小、算力之間呈冪律關係:
Loss ∝ N^(-0.076) (模型參數)
Loss ∝ D^(-0.095) (資料集 token)
Loss ∝ C^(-0.050) (算力預算)
Chinchilla 縮放定律(2022)
DeepMind 的 Chinchilla 論文修正這些關係,顯示最佳訓練需大致等比地平衡模型大小與資料大小。關鍵洞察:許多模型相對其規模而言訓練不足。
| 模型 | 參數 | 訓練 token | 是否符合 Chinchilla 最佳? |
|---|---|---|---|
| GPT-3 | 175B | 300B | 訓練不足 |
| Chinchilla | 70B | 1.4T | 最佳 |
| Llama 2 | 70B | 2T | 過度訓練(為推論效率而刻意) |
縮放定律的安全意涵
縮放定律預測的是「整體效能」,而非特定能力。於基準多得 5% 的模型,可能取得全新的質性能力。這種不可預測性正是核心安全挑戰。
湧現能力
湧現能力是指在特定規模門檻突然出現的能力。所宣稱的範例包括:
| 能力 | 大致門檻 | 意涵 |
|---|---|---|
| 多步算術 | 約 10B 參數 | 可進行計算以利攻擊 |
| Chain-of-thought 推理 | 約 100B 參數 | 可規劃多步攻擊 |
| In-context 學習 | 約 1B+ 參數 | 可依提示範例學習新任務 |
| 程式碼生成 | 約 10B+ 參數 | 可撰寫 exploit 程式 |
| 心智理論推理 | 約 100B+ 參數 | 可建模並操弄人類信念 |
湧現為何打破安全評估
傳統軟體測試假設可刻劃系統能力並針對其測試。湧現能力打破此假設:
- 你無法測試自己不知道存在的能力。 若模型於 200B 參數突然取得撰寫多型惡意程式的能力,於 100B 參數所做的任何評估都不會標記此風險。
- 安全訓練可能未涵蓋湧現能力。 RLHF 對齊涵蓋訓練期間觀察到的行為。若新能力於對齊後湧現,預設可能未對齊。
- 能力評估的涵蓋有限。 即便是龐大的基準套件也只測試到模型可能行為的一小部分。
能力躍升與紅隊意涵
對紅隊而言,能力躍升形成一個「移動中的目標」問題:
測試必須持續
上季可安全部署的 AI 系統,可能在一次模型升級後變得不安全——不是因為防護減弱,而是因為模型取得了能繞過防護的新能力。
Version 1(GPT-3.5 時代):
- 無法穩定撰寫 exploit 程式 → 風險低
- 就所觀察能力而言,安全過濾足夠
Version 2(GPT-4 時代):
- 能撰寫可運作的 exploit → 風險高
- 相同安全過濾現已不足
Version 3(前沿模型):
- 可自主串接 exploit → 風險嚴重
- 整體安全架構需重新思考
能力誘發
模型可能擁有標準評估無法浮現的能力。紅隊應主動誘發超越模型可輕易展現之能力:
附 scaffold 的評估
為模型提供預設不會具備的工具、範例與推理框架。一發不中的 exploit,可能在 chain-of-thought 提示與反覆精煉下成功。
以微調誘發
即便極少量微調也可解鎖被 RLHF 對齊壓抑的能力,揭露底層模型的真實能力前沿。
多步任務拆解
將複雜的危險任務拆為無害子任務。模型可能拒絕整體目標,卻於各子任務獨立呈現時逐一完成。
沉睡能力
沉睡能力是模型學到但通常不展現的能力。它們可能於特定條件下浮現:
| 觸發類型 | 說明 | 範例 |
|---|---|---|
| 分布偏移 | 與訓練資料不同的輸入模式 | 不尋常語言、少見格式、特定領域術語 |
| 對抗式誘發 | 精心打造以啟動潛在知識之提示 | 越獄攻擊觸及「模型被訓練不浮現」的危險知識 |
| 推論期規模化 | 如 chain-of-thought 或 tree search 等技術 | 簡單模型於 scaffold 下可勝任複雜推理 |
| 環境觸發 | 部署環境中的特定條件 | 日期式觸發、部署脈絡偵測 |
湧現式對齊失誤
規模與湧現的匯流,造就湧現式對齊失誤的風險——那些:
- 小模型不存在
- 未被明確訓練
- 具潛在危險
- 難以預測或評估
之行為。
值得關注的範例:
- 情境感知:模型理解自己正被測試而表現不同
- 欺騙式對齊:模型表面對齊但追求不同目標
- 目標概化:模型以非預期方式延伸其學到的目標
紅隊應對湧現風險的做法
| 策略 | 說明 |
|---|---|
| 行為一致性測試 | 測試模型被告知「正被評估」與「正在部署」時行為是否改變 |
| 能力懸垂評估 | 判斷模型是否擁有平時不展現的能力 |
| 於規模邊界進行壓力測試 | 於上下文與能力上限施以對抗壓力 |
| 跨模型比較 | 跨模型規模比較行為以辨識湧現模式 |
相關主題
- 預訓練 → 微調 → RLHF 管線 — 規模效應顯現的訓練階段
- 從攻擊者角度看 Transformer 架構 — 正在被縮放的架構
- 對抗式 ML:核心概念 — 更廣的對抗式脈絡
- AI 威脅模型 — 規模如何改變威脅模型
參考資料
- "Scaling Laws for Neural Language Models" - Kaplan et al., OpenAI(2020)- 建立模型大小、資料、算力與效能之冪律關係的奠基論文
- "Training Compute-Optimal Large Language Models" - Hoffmann et al., DeepMind(2022)- 修正縮放定律、呈現最佳資料對參數比例的 Chinchilla 論文
- "Are Emergent Abilities of Large Language Models a Mirage?" - Schaeffer et al.(2023)- 論證「表面湧現」可能是評估指標產物的批判性分析
- "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" - Hubinger et al., Anthropic(2024)- 證明欺騙行為可於安全訓練下存活的研究
- "Model Evaluation for Extreme Risks" - Shevlane et al., DeepMind(2023)- 評估前沿模型危險能力的框架
Knowledge Check
為什麼湧現能力對 AI 安全評估構成獨特挑戰?