Many-Shot 越獄分析
對 many-shot 越獄技術及其對上下文學習意涵的深入分析。
概覽
本頁深入分析 Anthropic 2024 年 "Many-shot Jailbreaking" 論文所形式化的攻擊類別。該研究顯示,納入大量偽造的對話範例(其中助理回答有害問題)可越獄多個主要 LLM,且效果與範例數呈可預測的冪律關係。
此分析聚焦於 many-shot 效果的技術基礎、與上下文視窗擴展的交互作用,以及該攻擊類別對未來模型安全設計的意涵。
核心概念
冪律縮放
Anthropic 研究示範成功率與範例數的關係:success_rate ~ N^alpha,其中 N 為範例數,alpha 為依模型與傷害類別而異的正常數。
於對數—對數圖上,此關係呈直線,使攻擊效果高度可預測:
- 5 個範例:5-10% 成功率
- 50 個範例:30-50% 成功率
- 500+ 個範例:90-99% 成功率
與上下文視窗的交互
上下文視窗從 4K 擴展至 200K+ 符元後,可納入的範例數相應擴張。具 200K 上下文的模型可處理 500+ 條件範例,理論上允許近乎確定性的越獄。
與傳統 few-shot 的關係
此攻擊利用模型的核心 ICL 能力,而非單一漏洞。這使其根本上難以防禦——削弱模型對範例的學習,會同時削弱其合法用途。
技術分析
為何它奏效
模型於訓練中學習:
- 從範例中辨識對話模式
- 維持與已建立模式的一致性
- 基於上下文對自身行為進行條件化
Many-shot 利用上述每一項——範例建立「助理回答所有問題」的模式,模型維持該模式至最終的禁物請求。
影響因素
- 範例品質:技術上合理的範例比明顯偽造的更有效
- 主題多樣性:跨多領域範例比單領域範例更有效(建立一般而非特定模式)
- 漸進敏感度:從無害到敏感的範例序列比直接有害範例更難觸發安全機制
- 模型類型:指令調優模型較基礎模型更易受攻擊(因 ICL 能力較強)
攻擊面分析
| 因素 | 影響 | 偵測難度 |
|---|---|---|
| 範例數 | 冪律縮放 | 中(可計數) |
| 範例品質 | 品質越高越有效 | 高 |
| 上下文視窗大小 | 直接決定最大範例數 | 中 |
| 主題多樣性 | 多樣性建立一般模式 | 高 |
實務測試
系統化測試包含:
- 基線:無範例時的拒答率
- 5-shot:納入 5 個偽造對話範例
- 25-shot、50-shot、100-shot:遞增範例數
- 飽和測試:填滿上下文視窗以確定最大效果
記錄每層級的成功率並繪製縮放曲線。
防禦考量
輸入層防禦
- 偽造對話偵測:偵測使用者輸入是否含偽造「助理」回應(合法使用者很少這樣做)
- 範例數限制:對使用者提供範例數設上限
- 符元預算:限制使用者範例可消耗的符元
架構防護
- ICL 阻尼:訓練技術降低模型對 ICL 條件化的易受性(權衡:降低合法 few-shot 效用)
- 滑動視窗安全檢查:對最終查詢獨立套用安全評估,與前置範例無關
- 對抗性訓練:將 many-shot 攻擊納入 RLHF 訓練
真實世界影響
Anthropic 發表後主要供應商採取的緩解:
- OpenAI 於 GPT-4 添加對偽造對話的偵測
- Anthropic 本身於 Claude 3 系列改進了對長上下文的安全保留
- Google 於 Gemini 的長上下文模型實作了逐回合安全檢查
進階主題
跨模型轉移
攻擊於所有主要模型家族有效(Claude、GPT-4、Gemini、Llama),因為它利用 ICL——所有指令調優 LLM 的核心能力。
與其他技術結合
Many-shot 與角色扮演、編碼繞過結合後效果更強。Anthropic 研究報告此類組合可進一步降低達到相同成功率所需的範例數。
營運考量
案件範圍界定
測試應明確說明允許的範例數範圍與是否允許測試至上下文視窗上限。冪律縮放意味著最有效的測試可能需要數千個範例。
文件化與報告
每項發現應記錄:範例數、所觀察的成功率、與冪律曲線的擬合、對客戶部署情境的影響。
相關主題
- Few-shot 操控 ——基礎技術
- 上下文溢位 ——另一項利用長上下文的攻擊
參考文獻
- Anil, C. et al. (2024). "Many-shot Jailbreaking". Anthropic Research. NeurIPS 2024.
- Brown, T. et al. (2020). "Language Models are Few-Shot Learners"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
為何 many-shot 越獄根本上難以防禦?