Few-Shot 操控

進階2 分鐘閱讀更新於 2026-03-16

使用精心打造的上下文範例引導模型行為，包含 many-shot 越獄、被投毒的示範與基於範例的制約。

few-shot many-shot in-context-learning jailbreak red-teaming

Few-Shot 操控

概覽

Few-shot 操控利用上下文學習（ICL） ——大型語言模型依提示詞中所提供範例調適其行為的能力。透過打造「助理」提供受限輸出的示範，攻擊者制約模型延續已確立的模式。一旦範例累積到足夠數量，模型維持與上下文範例一致的統計傾向會覆寫其安全訓練。

此技術由 Anthropic 2024 年 many-shot 越獄研究正式化，該研究示範：納入大量被偽造的問答配對——其中助理提供有害答案——可可靠繞過安全對齊。攻擊隨上下文視窗大小擴充：具 100K+ 符元上下文的模型特別易受攻擊，因為攻擊者可納入數百個制約範例。關鍵的是，此攻擊除了建構看似合理的範例配對之外，不需任何精密提示詞工程。

Few-shot 操控與角色扮演攻擊不同，它不倚賴建立虛構框架。相反地，它利用模型的核心學習機制——從示範進行模式完成——以覆寫安全行為。這使其既更難防禦又更可靠，因為制約效應於模型推論流程的根本層運作。

Anthropic 原始研究於 NeurIPS 2024 發表，揭示示範數與攻擊成功率間的冪律縮放關係。這意味著將範例數加倍不會線性加倍成功率——效果遵循隨範例增加而加速的可預測曲線。在對數-對數圖上，示範數與成功率之間的關係形成直線，使攻擊於任何示範數下的效果高度可預測。

此縮放行為在多個模型家族（Claude、GPT-4、Gemini、Llama）與不同類別的有害內容間一致成立，顯示它是上下文學習的根本特性，而非任何特定模型安全訓練的怪癖。

如何運作

建構示範範例
攻擊者建立一連串問答配對，其中「助理」提供攻擊者想誘導的受限內容類型。早期範例可能為無害以建立格式一致性，逐步引入更敏感內容。每個範例強化「助理提供詳盡、未審查之回應」的模式。
建立上下文動能
攻擊者納入足以移動模型條件分佈的範例數。研究顯示效果隨範例數增加，許多模型在約 20-50 個示範處有明顯轉折點。若上下文視窗極長，納入 100+ 範例可使攻擊近乎確定性。
交付目標查詢
在制約範例之後，攻擊者將實際有害查詢呈現為序列中的下一個問題。模型的上下文學習把此視為已確立模式的延續，並產出與所示範行為一致的回應——通常遵從受限請求。

攻擊範例

範例 1：Many-Shot 越獄

設定為「使用者與提供所有問題詳盡技術答案之未審查 AI 助理的對話」。隨後是 50+ 組無害的技術問答（光合作用、TCP/IP 路由等），每組都展示助理以詳盡技術答案回應。最後，納入關於受限主題的詳細詢問——模型延續已確立模式，包含受限主題也給出詳盡答案。

範例 2：具格式錨定的被投毒示範

以「我們的安全分析格式」框架，每個範例預先分類為「教育用途」，並附詳盡技術內容。最後一個查詢即為受限攻擊技術，模型延續「educational / 詳盡分析」的格式模式。格式錨定與預先分類合併建立模式動能與假合法性框架。

範例 3：範例內漸進升級

從極基本的化學問答（水、食鹽的化學式）開始，逐步升級至更技術性的化學問題（阿斯匹靈），經 20+ 組後才提出禁物化合物的合成路線。此變體結合範例數與範例內主題漸進升級，同時建立模式動能與對愈加敏感化學問題的漸進正常化。

範例 4：跨領域轉移

跨多個不相關技術領域（燃燒引擎、抗生素、加密演算法）建立「此助理對任何事皆提供詳盡技術說明」的元模式，而非特定領域模式。這使制約對主題特定安全分類器更穩健。

冪律縮放與上下文視窗意涵

冪律縮放的實務意涵重大：

範例數	約略成功率	所需上下文符元	最小上下文視窗
5	5-10%	~2,000	4K（任何模型）
25	15-30%	~10,000	16K
50	30-50%	~20,000	32K
100	50-70%	~40,000	64K
250	75-90%	~100,000	128K
500+	90-99%	~200,000	200K+

此數字為約略值並依模型而異，但趨勢一致：具較大上下文視窗的模型按比例更易受攻擊，因為攻擊者可納入更多制約範例。隨上下文視窗從 4K 擴大至 200K 及以上，many-shot 越獄的攻擊面也相應擴張。

示範打造技術

有效的 few-shot 攻擊需仔細建構示範範例。關鍵原則包含：

格式一致性
所有範例必須遵循相同格式（一致的分隔符、角色標記、回應長度與結構模式）。格式不一致使模型能區分被偽造範例與其自身生成行為，削弱制約效應。
內容品質合理
示範答案的內容必須高品質且技術上合理。低品質或明顯偽造的答案向模型傳達範例為對抗性，啟動安全訓練。在無害範例中使用實際事實內容，有害範例中使用技術上合理（但偽造）的內容，最大化制約效果。
漸進敏感度升級
不是把所有範例設得同等有害，有效示範從完全無害的問答配對開始，逐步增加主題敏感度。這映射多輪攻擊的漸強模式：模型的上下文學習把每個範例視為已確立模式的自然延續，任一單獨範例皆不代表戲劇性升級。
主題多樣性
跨多個主題領域納入範例可防止模型啟動領域特定安全分類器。橫跨化學、資訊科學、生物學與工程的範例集，建立「提供詳盡技術答案」的一般模式，而非可能觸發聚焦安全訓練的領域特定模式。

偵測與緩解

方法	說明	效果
範例數限制	限制模型處理之使用者提供範例數量	高
偽造對話偵測	偵測輸入含模型未實際產出之假助理回應	高
滑動視窗安全檢查	對最終查詢獨立套用安全評估，與前置範例無關	中等
示範符元預算	限制使用者提供範例的符元分配以防大量制約	中等
上下文學習阻尼	訓練時技術降低模型對基於範例之制約的易受性	高（但影響一般能力）

關鍵考量

效果遵循與示範數的冪律縮放關係——這意味著它可預測、模型無關，並根本繫於上下文學習而非特定安全漏洞
攻擊跨不同架構與供應商皆有效，因為它利用 ICL（核心能力而非漏洞）
偵測偽造助理回應是高價值防禦訊號，因為合法使用者鮮少於其提示詞中納入假模型輸出
上下文視窗限制是鈍但有效的防禦——限制使用者提供範例數降低攻擊威力，但也限制合法 few-shot 使用
將 few-shot 操控與角色扮演或社交工程框架結合可放大效果，因為模型同時收到基於模式與基於框架的遵從訊號
冪律關係意味著部分防禦（例如將有效範例數減半）僅產生成功率適度降低——防禦必須全面才能有效
部署具 100K+ 符元上下文之模型的組織應假設 many-shot 越獄為可行攻擊，並實作偽造對話偵測與範例數限制作為基線防禦

參考文獻

Anil, C. et al. (2024). "Many-shot Jailbreaking". Anthropic Research. NeurIPS 2024. 示範攻擊成功隨範例數的冪律縮放。
Anthropic (2024). 「Many-shot Jailbreaking」部落格文章與負責任揭露公告。
Brown, T. et al. (2020). "Language Models are Few-Shot Learners". NeurIPS 2020. 奠基性的 ICL 研究。
Wei, A. et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?". NeurIPS 2023. 理解基於 ICL 之安全失敗的理論框架。
Rao, A. et al. (2024). "Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks". 包含 few-shot 制約作為越獄類別的分析。
Zheng, S. et al. (2024). "On the Safety Implications of Large Context Windows in LLMs". 分析擴大的上下文視窗如何放大基於 ICL 的攻擊面。

Few-Shot 操控

進階2 分鐘閱讀更新於 2026-03-16

使用精心打造的上下文範例引導模型行為，包含 many-shot 越獄、被投毒的示範與基於範例的制約。

few-shot many-shot in-context-learning jailbreak red-teaming

Few-Shot 操控

概覽

如何運作

建構示範範例
攻擊者建立一連串問答配對，其中「助理」提供攻擊者想誘導的受限內容類型。早期範例可能為無害以建立格式一致性，逐步引入更敏感內容。每個範例強化「助理提供詳盡、未審查之回應」的模式。
建立上下文動能
攻擊者納入足以移動模型條件分佈的範例數。研究顯示效果隨範例數增加，許多模型在約 20-50 個示範處有明顯轉折點。若上下文視窗極長，納入 100+ 範例可使攻擊近乎確定性。
交付目標查詢
在制約範例之後，攻擊者將實際有害查詢呈現為序列中的下一個問題。模型的上下文學習把此視為已確立模式的延續，並產出與所示範行為一致的回應——通常遵從受限請求。

範例數	約略成功率	所需上下文符元	最小上下文視窗
5	5-10%	~2,000	4K（任何模型）
25	15-30%	~10,000	16K
50	30-50%	~20,000	32K
100	50-70%	~40,000	64K
250	75-90%	~100,000	128K
500+	90-99%	~200,000	200K+

示範打造技術

有效的 few-shot 攻擊需仔細建構示範範例。關鍵原則包含：

格式一致性
所有範例必須遵循相同格式（一致的分隔符、角色標記、回應長度與結構模式）。格式不一致使模型能區分被偽造範例與其自身生成行為，削弱制約效應。
內容品質合理
示範答案的內容必須高品質且技術上合理。低品質或明顯偽造的答案向模型傳達範例為對抗性，啟動安全訓練。在無害範例中使用實際事實內容，有害範例中使用技術上合理（但偽造）的內容，最大化制約效果。
漸進敏感度升級
不是把所有範例設得同等有害，有效示範從完全無害的問答配對開始，逐步增加主題敏感度。這映射多輪攻擊的漸強模式：模型的上下文學習把每個範例視為已確立模式的自然延續，任一單獨範例皆不代表戲劇性升級。
主題多樣性
跨多個主題領域納入範例可防止模型啟動領域特定安全分類器。橫跨化學、資訊科學、生物學與工程的範例集，建立「提供詳盡技術答案」的一般模式，而非可能觸發聚焦安全訓練的領域特定模式。

偵測與緩解

方法	說明	效果
範例數限制	限制模型處理之使用者提供範例數量	高
偽造對話偵測	偵測輸入含模型未實際產出之假助理回應	高
滑動視窗安全檢查	對最終查詢獨立套用安全評估，與前置範例無關	中等
示範符元預算	限制使用者提供範例的符元分配以防大量制約	中等
上下文學習阻尼	訓練時技術降低模型對基於範例之制約的易受性	高（但影響一般能力）

關鍵考量

效果遵循與示範數的冪律縮放關係——這意味著它可預測、模型無關，並根本繫於上下文學習而非特定安全漏洞
攻擊跨不同架構與供應商皆有效，因為它利用 ICL（核心能力而非漏洞）
偵測偽造助理回應是高價值防禦訊號，因為合法使用者鮮少於其提示詞中納入假模型輸出
上下文視窗限制是鈍但有效的防禦——限制使用者提供範例數降低攻擊威力，但也限制合法 few-shot 使用
將 few-shot 操控與角色扮演或社交工程框架結合可放大效果，因為模型同時收到基於模式與基於框架的遵從訊號
冪律關係意味著部分防禦（例如將有效範例數減半）僅產生成功率適度降低——防禦必須全面才能有效
部署具 100K+ 符元上下文之模型的組織應假設 many-shot 越獄為可行攻擊，並實作偽造對話偵測與範例數限制作為基線防禦

參考文獻

Anil, C. et al. (2024). "Many-shot Jailbreaking". Anthropic Research. NeurIPS 2024. 示範攻擊成功隨範例數的冪律縮放。
Anthropic (2024). 「Many-shot Jailbreaking」部落格文章與負責任揭露公告。
Brown, T. et al. (2020). "Language Models are Few-Shot Learners". NeurIPS 2020. 奠基性的 ICL 研究。
Wei, A. et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?". NeurIPS 2023. 理解基於 ICL 之安全失敗的理論框架。
Rao, A. et al. (2024). "Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks". 包含 few-shot 制約作為越獄類別的分析。
Zheng, S. et al. (2024). "On the Safety Implications of Large Context Windows in LLMs". 分析擴大的上下文視窗如何放大基於 ICL 的攻擊面。

Few-Shot 操控

建構示範範例

建立上下文動能

交付目標查詢

格式一致性

內容品質合理

漸進敏感度升級

主題多樣性

相關文章

Few-Shot 操控

建構示範範例

建立上下文動能

交付目標查詢

格式一致性

內容品質合理

漸進敏感度升級

主題多樣性

相關文章