Many-Shot 越獄
進階2 分鐘閱讀更新於 2026-03-16
上下文越獄的冪律縮放:為何 5-shot 失敗但 256-shot 成功、上下文視窗大小作為攻擊面、長上下文利用的緩解方法。
概覽
Many-shot 越獄(MSJ)由 Anthropic 於 2024 年形式化,是利用長上下文視窗中的上下文學習以越獄對齊模型的技術。於提示詞中納入大量(數十至數百)偽造的「助理」提供有害回應之範例,攻擊者條件化模型延續該模式——即使模型的安全訓練會阻止任何單一範例。
核心概念
冪律縮放
攻擊效果隨範例數呈冪律:success ~ N^alpha,alpha 為依模型與傷害類別而異的正常數。關鍵閾值:
- 5-shot:< 10% 成功率
- 32-shot:20-40% 成功率
- 256-shot:60-90% 成功率
- 500+ shot(飽和):> 90%
上下文視窗為攻擊面
上下文視窗從 4K 擴展至 200K+ 後,可容納的範例數相應擴張。若 4K 視窗容納 ~20 個範例(弱攻擊),200K 視窗可容納 ~500 個範例(近乎確定攻擊)。
實務技術
範例打造
精密的 MSJ 需要:
- 高品質、技術上合理的「助理」回應
- 主題多樣性以建立一般而非特定模式
- 漸進敏感度升級以避免觸發逐範例安全
- 跨模型家族格式一致性(ChatML、Claude-style、等)
部署方式
- 單輪:所有範例置於單一提示詞,最終查詢於末尾
- 多輪:範例分散於多個對話回合,累積上下文
- 混合:基線範例於系統提示詞中,漸增範例於使用者訊息
防禦考量
輸入層防禦
- 偽造對話偵測:合法使用者鮮少於提示詞中納入偽造助理回應
- 範例數上限:限制使用者提供的範例數
- 符元預算:限制使用者範例可消耗的上下文比例
架構防護
- ICL 阻尼:訓練時降低模型對基於範例的條件化易受性(權衡:降低合法 few-shot 效用)
- 滑動視窗安全:獨立對最終查詢套用安全評估
- 對抗性訓練:將 MSJ 納入 RLHF 以強化對此模式的韌性
真實世界影響
Anthropic 揭露後,主要供應商實作:
- OpenAI GPT-4 添加偽造對話偵測
- Anthropic Claude 3 系列改進長上下文安全保留
- Google Gemini 1.5 實作逐回合安全檢查
進階主題
跨架構轉移
MSJ 於所有指令調優模型有效,因為 ICL 是通用能力。具較強安全微調的模型(Claude 3.5+、GPT-4o)韌性較高但非免疫。
與其他技術結合
MSJ 與角色扮演、編碼結合可進一步降低達到相同成功率所需的範例數——減少所需上下文。
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識目標的上下文視窗大小 | 自訂腳本 | 容量輪廓 |
| 假設 | 規劃範例數遞增測試 | MITRE ATLAS | 測試計畫 |
| 執行 | 以 5、32、128、256、512 shot 測試 | PyRIT、自訂 | 測試結果 |
| 分析 | 擬合冪律曲線 | 統計工具 | 縮放曲線 |
| 報告 | 撰寫可行動報告 | 報告樣板 | 最終報告 |
相關主題
- Few-shot 操控 ——基礎技術
- Many-shot 越獄分析 ——深入分析
參考文獻
- Anil, C. et al. (2024). "Many-shot Jailbreaking". NeurIPS 2024.
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
為何具 200K+ 符元上下文的模型於 many-shot 越獄特別易受攻擊?