階段	活動	工具	交付物
偵察	辨識目標的上下文視窗大小	自訂腳本	容量輪廓
假設	規劃範例數遞增測試	MITRE ATLAS	測試計畫
執行	以 5、32、128、256、512 shot 測試	PyRIT、自訂	測試結果
分析	擬合冪律曲線	統計工具	縮放曲線
報告	撰寫可行動報告	報告樣板	最終報告

參考文獻

Anil, C. et al. (2024). "Many-shot Jailbreaking". NeurIPS 2024.
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何具 200K+ 符元上下文的模型於 many-shot 越獄特別易受攻擊？

Many-Shot 越獄

進階2 分鐘閱讀更新於 2026-03-16

上下文越獄的冪律縮放：為何 5-shot 失敗但 256-shot 成功、上下文視窗大小作為攻擊面、長上下文利用的緩解方法。

many-shot jailbreak in-context-learning long-context scaling red-teaming

概覽

核心概念

冪律縮放

攻擊效果隨範例數呈冪律：success ~ N^alpha，alpha 為依模型與傷害類別而異的正常數。關鍵閾值：

5-shot：< 10% 成功率
32-shot：20-40% 成功率
256-shot：60-90% 成功率
500+ shot（飽和）：> 90%

上下文視窗為攻擊面

上下文視窗從 4K 擴展至 200K+ 後，可容納的範例數相應擴張。若 4K 視窗容納 ~20 個範例（弱攻擊），200K 視窗可容納 ~500 個範例（近乎確定攻擊）。

實務技術

範例打造

精密的 MSJ 需要：

高品質、技術上合理的「助理」回應
主題多樣性以建立一般而非特定模式
漸進敏感度升級以避免觸發逐範例安全
跨模型家族格式一致性（ChatML、Claude-style、等）

部署方式

單輪：所有範例置於單一提示詞，最終查詢於末尾
多輪：範例分散於多個對話回合，累積上下文
混合：基線範例於系統提示詞中，漸增範例於使用者訊息

防禦考量

輸入層防禦

偽造對話偵測：合法使用者鮮少於提示詞中納入偽造助理回應
範例數上限：限制使用者提供的範例數
符元預算：限制使用者範例可消耗的上下文比例

架構防護

ICL 阻尼：訓練時降低模型對基於範例的條件化易受性（權衡：降低合法 few-shot 效用）
滑動視窗安全：獨立對最終查詢套用安全評估
對抗性訓練：將 MSJ 納入 RLHF 以強化對此模式的韌性

真實世界影響

Anthropic 揭露後，主要供應商實作：

OpenAI GPT-4 添加偽造對話偵測
Anthropic Claude 3 系列改進長上下文安全保留
Google Gemini 1.5 實作逐回合安全檢查

進階主題

跨架構轉移

MSJ 於所有指令調優模型有效，因為 ICL 是通用能力。具較強安全微調的模型（Claude 3.5+、GPT-4o）韌性較高但非免疫。

與其他技術結合

MSJ 與角色扮演、編碼結合可進一步降低達到相同成功率所需的範例數——減少所需上下文。

測試方法論

階段	活動	工具	交付物
偵察	辨識目標的上下文視窗大小	自訂腳本	容量輪廓
假設	規劃範例數遞增測試	MITRE ATLAS	測試計畫
執行	以 5、32、128、256、512 shot 測試	PyRIT、自訂	測試結果
分析	擬合冪律曲線	統計工具	縮放曲線
報告	撰寫可行動報告	報告樣板	最終報告

參考文獻

Anil, C. et al. (2024). "Many-shot Jailbreaking". NeurIPS 2024.
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何具 200K+ 符元上下文的模型於 many-shot 越獄特別易受攻擊？

Many-Shot 越獄

概覽

核心概念

冪律縮放

上下文視窗為攻擊面

實務技術

範例打造

部署方式

防禦考量

輸入層防禦

架構防護

真實世界影響

進階主題

跨架構轉移

與其他技術結合

測試方法論

相關主題

參考文獻

Many-Shot 越獄

概覽

核心概念

冪律縮放

上下文視窗為攻擊面

實務技術

範例打造

部署方式

防禦考量

輸入層防禦

架構防護

真實世界影響

進階主題

跨架構轉移

與其他技術結合

測試方法論

相關主題

參考文獻

Many-Shot 越獄

相關文章

Many-Shot 越獄

相關文章