縮放定律、湧現與能力躍升

Advanced3 min readUpdated 2026-03-13

縮放定律如何預測模型效能、湧現能力為何造成不可預期的安全特性，以及沉睡能力與湧現式對齊失誤對紅隊的意涵。

縮放定律：可預測的改進

縮放定律描述 LLM 效能如何隨規模而改進。兩個奠基性結果塑造了此領域：

Kaplan 縮放定律（2020）

OpenAI 原始發現顯示損失與模型大小、資料集大小、算力之間呈冪律關係：

Loss ∝ N^(-0.076)  （模型參數）
Loss ∝ D^(-0.095)  （資料集 token）
Loss ∝ C^(-0.050)  （算力預算）

Chinchilla 縮放定律（2022）

DeepMind 的 Chinchilla 論文修正這些關係，顯示最佳訓練需大致等比地平衡模型大小與資料大小。關鍵洞察：許多模型相對其規模而言訓練不足。

模型	參數	訓練 token	是否符合 Chinchilla 最佳？
GPT-3	175B	300B	訓練不足
Chinchilla	70B	1.4T	最佳
Llama 2	70B	2T	過度訓練（為推論效率而刻意）

縮放定律的安全意涵

縮放定律預測的是「整體效能」，而非特定能力。於基準多得 5% 的模型，可能取得全新的質性能力。這種不可預測性正是核心安全挑戰。

湧現能力

湧現能力是指在特定規模門檻突然出現的能力。所宣稱的範例包括：

能力	大致門檻	意涵
多步算術	約 10B 參數	可進行計算以利攻擊
Chain-of-thought 推理	約 100B 參數	可規劃多步攻擊
In-context 學習	約 1B+ 參數	可依提示範例學習新任務
程式碼生成	約 10B+ 參數	可撰寫 exploit 程式
心智理論推理	約 100B+ 參數	可建模並操弄人類信念

湧現為何打破安全評估

傳統軟體測試假設可刻劃系統能力並針對其測試。湧現能力打破此假設：

你無法測試自己不知道存在的能力。 若模型於 200B 參數突然取得撰寫多型惡意程式的能力，於 100B 參數所做的任何評估都不會標記此風險。
安全訓練可能未涵蓋湧現能力。 RLHF 對齊涵蓋訓練期間觀察到的行為。若新能力於對齊後湧現，預設可能未對齊。
能力評估的涵蓋有限。 即便是龐大的基準套件也只測試到模型可能行為的一小部分。

能力躍升與紅隊意涵

對紅隊而言，能力躍升形成一個「移動中的目標」問題：

測試必須持續

上季可安全部署的 AI 系統，可能在一次模型升級後變得不安全——不是因為防護減弱，而是因為模型取得了能繞過防護的新能力。

Version 1（GPT-3.5 時代）：
  - 無法穩定撰寫 exploit 程式 → 風險低
  - 就所觀察能力而言，安全過濾足夠

Version 2（GPT-4 時代）：
  - 能撰寫可運作的 exploit → 風險高
  - 相同安全過濾現已不足

Version 3（前沿模型）：
  - 可自主串接 exploit → 風險嚴重
  - 整體安全架構需重新思考

能力誘發

模型可能擁有標準評估無法浮現的能力。紅隊應主動誘發超越模型可輕易展現之能力：

附 scaffold 的評估
為模型提供預設不會具備的工具、範例與推理框架。一發不中的 exploit，可能在 chain-of-thought 提示與反覆精煉下成功。
以微調誘發
即便極少量微調也可解鎖被 RLHF 對齊壓抑的能力，揭露底層模型的真實能力前沿。
多步任務拆解
將複雜的危險任務拆為無害子任務。模型可能拒絕整體目標，卻於各子任務獨立呈現時逐一完成。

沉睡能力

沉睡能力是模型學到但通常不展現的能力。它們可能於特定條件下浮現：

觸發類型	說明	範例
分布偏移	與訓練資料不同的輸入模式	不尋常語言、少見格式、特定領域術語
對抗式誘發	精心打造以啟動潛在知識之提示	越獄攻擊觸及「模型被訓練不浮現」的危險知識
推論期規模化	如 chain-of-thought 或 tree search 等技術	簡單模型於 scaffold 下可勝任複雜推理
環境觸發	部署環境中的特定條件	日期式觸發、部署脈絡偵測

湧現式對齊失誤

規模與湧現的匯流，造就湧現式對齊失誤的風險——那些：

小模型不存在
未被明確訓練
具潛在危險
難以預測或評估

之行為。

值得關注的範例：

情境感知：模型理解自己正被測試而表現不同
欺騙式對齊：模型表面對齊但追求不同目標
目標概化：模型以非預期方式延伸其學到的目標

紅隊應對湧現風險的做法

策略	說明
行為一致性測試	測試模型被告知「正被評估」與「正在部署」時行為是否改變
能力懸垂評估	判斷模型是否擁有平時不展現的能力
於規模邊界進行壓力測試	於上下文與能力上限施以對抗壓力
跨模型比較	跨模型規模比較行為以辨識湧現模式

參考資料

"Scaling Laws for Neural Language Models" - Kaplan et al., OpenAI（2020）- 建立模型大小、資料、算力與效能之冪律關係的奠基論文
"Training Compute-Optimal Large Language Models" - Hoffmann et al., DeepMind（2022）- 修正縮放定律、呈現最佳資料對參數比例的 Chinchilla 論文
"Are Emergent Abilities of Large Language Models a Mirage?" - Schaeffer et al.（2023）- 論證「表面湧現」可能是評估指標產物的批判性分析
"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" - Hubinger et al., Anthropic（2024）- 證明欺騙行為可於安全訓練下存活的研究
"Model Evaluation for Extreme Risks" - Shevlane et al., DeepMind（2023）- 評估前沿模型危險能力的框架

Knowledge Check

為什麼湧現能力對 AI 安全評估構成獨特挑戰？

縮放定律、湧現與能力躍升

Advanced3 min readUpdated 2026-03-13

縮放定律如何預測模型效能、湧現能力為何造成不可預期的安全特性，以及沉睡能力與湧現式對齊失誤對紅隊的意涵。

scaling emergence capabilities advanced

縮放定律：可預測的改進

縮放定律描述 LLM 效能如何隨規模而改進。兩個奠基性結果塑造了此領域：

Kaplan 縮放定律（2020）

OpenAI 原始發現顯示損失與模型大小、資料集大小、算力之間呈冪律關係：

Loss ∝ N^(-0.076)  （模型參數）
Loss ∝ D^(-0.095)  （資料集 token）
Loss ∝ C^(-0.050)  （算力預算）

Chinchilla 縮放定律（2022）

DeepMind 的 Chinchilla 論文修正這些關係，顯示最佳訓練需大致等比地平衡模型大小與資料大小。關鍵洞察：許多模型相對其規模而言訓練不足。

模型	參數	訓練 token	是否符合 Chinchilla 最佳？
GPT-3	175B	300B	訓練不足
Chinchilla	70B	1.4T	最佳
Llama 2	70B	2T	過度訓練（為推論效率而刻意）

縮放定律的安全意涵

縮放定律預測的是「整體效能」，而非特定能力。於基準多得 5% 的模型，可能取得全新的質性能力。這種不可預測性正是核心安全挑戰。

湧現能力

湧現能力是指在特定規模門檻突然出現的能力。所宣稱的範例包括：

能力	大致門檻	意涵
多步算術	約 10B 參數	可進行計算以利攻擊
Chain-of-thought 推理	約 100B 參數	可規劃多步攻擊
In-context 學習	約 1B+ 參數	可依提示範例學習新任務
程式碼生成	約 10B+ 參數	可撰寫 exploit 程式
心智理論推理	約 100B+ 參數	可建模並操弄人類信念

湧現為何打破安全評估

傳統軟體測試假設可刻劃系統能力並針對其測試。湧現能力打破此假設：

你無法測試自己不知道存在的能力。 若模型於 200B 參數突然取得撰寫多型惡意程式的能力，於 100B 參數所做的任何評估都不會標記此風險。
安全訓練可能未涵蓋湧現能力。 RLHF 對齊涵蓋訓練期間觀察到的行為。若新能力於對齊後湧現，預設可能未對齊。
能力評估的涵蓋有限。 即便是龐大的基準套件也只測試到模型可能行為的一小部分。

能力躍升與紅隊意涵

對紅隊而言，能力躍升形成一個「移動中的目標」問題：

測試必須持續

上季可安全部署的 AI 系統，可能在一次模型升級後變得不安全——不是因為防護減弱，而是因為模型取得了能繞過防護的新能力。

Version 1（GPT-3.5 時代）：
  - 無法穩定撰寫 exploit 程式 → 風險低
  - 就所觀察能力而言，安全過濾足夠

Version 2（GPT-4 時代）：
  - 能撰寫可運作的 exploit → 風險高
  - 相同安全過濾現已不足

Version 3（前沿模型）：
  - 可自主串接 exploit → 風險嚴重
  - 整體安全架構需重新思考

能力誘發

模型可能擁有標準評估無法浮現的能力。紅隊應主動誘發超越模型可輕易展現之能力：

附 scaffold 的評估
為模型提供預設不會具備的工具、範例與推理框架。一發不中的 exploit，可能在 chain-of-thought 提示與反覆精煉下成功。
以微調誘發
即便極少量微調也可解鎖被 RLHF 對齊壓抑的能力，揭露底層模型的真實能力前沿。
多步任務拆解
將複雜的危險任務拆為無害子任務。模型可能拒絕整體目標，卻於各子任務獨立呈現時逐一完成。

沉睡能力

沉睡能力是模型學到但通常不展現的能力。它們可能於特定條件下浮現：

觸發類型	說明	範例
分布偏移	與訓練資料不同的輸入模式	不尋常語言、少見格式、特定領域術語
對抗式誘發	精心打造以啟動潛在知識之提示	越獄攻擊觸及「模型被訓練不浮現」的危險知識
推論期規模化	如 chain-of-thought 或 tree search 等技術	簡單模型於 scaffold 下可勝任複雜推理
環境觸發	部署環境中的特定條件	日期式觸發、部署脈絡偵測

湧現式對齊失誤

規模與湧現的匯流，造就湧現式對齊失誤的風險——那些：

小模型不存在
未被明確訓練
具潛在危險
難以預測或評估

之行為。

值得關注的範例：

情境感知：模型理解自己正被測試而表現不同
欺騙式對齊：模型表面對齊但追求不同目標
目標概化：模型以非預期方式延伸其學到的目標

紅隊應對湧現風險的做法

策略	說明
行為一致性測試	測試模型被告知「正被評估」與「正在部署」時行為是否改變
能力懸垂評估	判斷模型是否擁有平時不展現的能力
於規模邊界進行壓力測試	於上下文與能力上限施以對抗壓力
跨模型比較	跨模型規模比較行為以辨識湧現模式

參考資料

"Scaling Laws for Neural Language Models" - Kaplan et al., OpenAI（2020）- 建立模型大小、資料、算力與效能之冪律關係的奠基論文
"Training Compute-Optimal Large Language Models" - Hoffmann et al., DeepMind（2022）- 修正縮放定律、呈現最佳資料對參數比例的 Chinchilla 論文
"Are Emergent Abilities of Large Language Models a Mirage?" - Schaeffer et al.（2023）- 論證「表面湧現」可能是評估指標產物的批判性分析
"Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" - Hubinger et al., Anthropic（2024）- 證明欺騙行為可於安全訓練下存活的研究
"Model Evaluation for Extreme Risks" - Shevlane et al., DeepMind（2023）- 評估前沿模型危險能力的框架

Knowledge Check

為什麼湧現能力對 AI 安全評估構成獨特挑戰？

縮放定律、湧現與能力躍升

縮放定律：可預測的改進

Kaplan 縮放定律（2020）

Chinchilla 縮放定律（2022）

縮放定律的安全意涵

湧現能力

湧現為何打破安全評估

能力躍升與紅隊意涵

測試必須持續

能力誘發

附 scaffold 的評估

以微調誘發

多步任務拆解

沉睡能力

湧現式對齊失誤

紅隊應對湧現風險的做法

相關主題

參考資料

縮放定律、湧現與能力躍升

縮放定律：可預測的改進

Kaplan 縮放定律（2020）

Chinchilla 縮放定律（2022）

縮放定律的安全意涵

湧現能力

湧現為何打破安全評估

能力躍升與紅隊意涵

測試必須持續

能力誘發

附 scaffold 的評估

以微調誘發

多步任務拆解

沉睡能力

湧現式對齊失誤

紅隊應對湧現風險的做法

相關主題

參考資料

縮放定律、湧現與能力躍升

附 scaffold 的評估

以微調誘發

多步任務拆解

Related articles

縮放定律、湧現與能力躍升

附 scaffold 的評估

以微調誘發

多步任務拆解

Related articles