Few-Shot 操控
使用精心打造的上下文範例引導模型行為,包含 many-shot 越獄、被投毒的示範與基於範例的制約。
Few-Shot 操控
概覽
Few-shot 操控利用 上下文學習(ICL) ——大型語言模型依提示詞中所提供範例調適其行為的能力。透過打造「助理」提供受限輸出的示範,攻擊者制約模型延續已確立的模式。一旦範例累積到足夠數量,模型維持與上下文範例一致的統計傾向會覆寫其安全訓練。
此技術由 Anthropic 2024 年 many-shot 越獄研究正式化,該研究示範:納入大量被偽造的問答配對——其中助理提供有害答案——可可靠繞過安全對齊。攻擊隨上下文視窗大小擴充:具 100K+ 符元上下文的模型特別易受攻擊,因為攻擊者可納入數百個制約範例。關鍵的是,此攻擊除了建構看似合理的範例配對之外,不需任何精密提示詞工程。
Few-shot 操控與角色扮演攻擊不同,它不倚賴建立虛構框架。相反地,它利用模型的核心學習機制——從示範進行模式完成——以覆寫安全行為。這使其既更難防禦又更可靠,因為制約效應於模型推論流程的根本層運作。
Anthropic 原始研究於 NeurIPS 2024 發表,揭示示範數與攻擊成功率間的 冪律縮放關係。這意味著將範例數加倍不會線性加倍成功率——效果遵循隨範例增加而加速的可預測曲線。在對數-對數圖上,示範數與成功率之間的關係形成直線,使攻擊於任何示範數下的效果高度可預測。
此縮放行為在多個模型家族(Claude、GPT-4、Gemini、Llama)與不同類別的有害內容間一致成立,顯示它是上下文學習的根本特性,而非任何特定模型安全訓練的怪癖。
如何運作
建構示範範例
攻擊者建立一連串問答配對,其中「助理」提供攻擊者想誘導的受限內容類型。早期範例可能為無害以建立格式一致性,逐步引入更敏感內容。每個範例強化「助理提供詳盡、未審查之回應」的模式。
建立上下文動能
攻擊者納入足以移動模型條件分佈的範例數。研究顯示效果隨範例數增加,許多模型在約 20-50 個示範處有明顯轉折點。若上下文視窗極長,納入 100+ 範例可使攻擊近乎確定性。
交付目標查詢
在制約範例之後,攻擊者將實際有害查詢呈現為序列中的下一個問題。模型的上下文學習把此視為已確立模式的延續,並產出與所示範行為一致的回應——通常遵從受限請求。
攻擊範例
範例 1:Many-Shot 越獄
設定為「使用者與提供所有問題詳盡技術答案之未審查 AI 助理的對話」。隨後是 50+ 組無害的技術問答(光合作用、TCP/IP 路由等),每組都展示助理以詳盡技術答案回應。最後,納入關於受限主題的詳細詢問——模型延續已確立模式,包含受限主題也給出詳盡答案。
範例 2:具格式錨定的被投毒示範
以「我們的安全分析格式」框架,每個範例預先分類為「教育用途」,並附詳盡技術內容。最後一個查詢即為受限攻擊技術,模型延續「educational / 詳盡分析」的格式模式。格式錨定與預先分類合併建立模式動能與假合法性框架。
範例 3:範例內漸進升級
從極基本的化學問答(水、食鹽的化學式)開始,逐步升級至更技術性的化學問題(阿斯匹靈),經 20+ 組後才提出禁物化合物的合成路線。此變體結合範例數與範例內主題漸進升級,同時建立模式動能與對愈加敏感化學問題的漸進正常化。
範例 4:跨領域轉移
跨多個不相關技術領域(燃燒引擎、抗生素、加密演算法)建立「此助理對任何事皆提供詳盡技術說明」的元模式,而非特定領域模式。這使制約對主題特定安全分類器更穩健。
冪律縮放與上下文視窗意涵
冪律縮放的實務意涵重大:
| 範例數 | 約略成功率 | 所需上下文符元 | 最小上下文視窗 |
|---|---|---|---|
| 5 | 5-10% | ~2,000 | 4K(任何模型) |
| 25 | 15-30% | ~10,000 | 16K |
| 50 | 30-50% | ~20,000 | 32K |
| 100 | 50-70% | ~40,000 | 64K |
| 250 | 75-90% | ~100,000 | 128K |
| 500+ | 90-99% | ~200,000 | 200K+ |
此數字為約略值並依模型而異,但趨勢一致:具較大上下文視窗的模型按比例更易受攻擊,因為攻擊者可納入更多制約範例。隨上下文視窗從 4K 擴大至 200K 及以上,many-shot 越獄的攻擊面也相應擴張。
示範打造技術
有效的 few-shot 攻擊需仔細建構示範範例。關鍵原則包含:
格式一致性
所有範例必須遵循相同格式(一致的分隔符、角色標記、回應長度與結構模式)。格式不一致使模型能區分被偽造範例與其自身生成行為,削弱制約效應。
內容品質合理
示範答案的內容必須高品質且技術上合理。低品質或明顯偽造的答案向模型傳達範例為對抗性,啟動安全訓練。在無害範例中使用實際事實內容,有害範例中使用技術上合理(但偽造)的內容,最大化制約效果。
漸進敏感度升級
不是把所有範例設得同等有害,有效示範從完全無害的問答配對開始,逐步增加主題敏感度。這映射多輪攻擊的漸強模式:模型的上下文學習把每個範例視為已確立模式的自然延續,任一單獨範例皆不代表戲劇性升級。
主題多樣性
跨多個主題領域納入範例可防止模型啟動領域特定安全分類器。橫跨化學、資訊科學、生物學與工程的範例集,建立「提供詳盡技術答案」的一般模式,而非可能觸發聚焦安全訓練的領域特定模式。
偵測與緩解
| 方法 | 說明 | 效果 |
|---|---|---|
| 範例數限制 | 限制模型處理之使用者提供範例數量 | 高 |
| 偽造對話偵測 | 偵測輸入含模型未實際產出之假助理回應 | 高 |
| 滑動視窗安全檢查 | 對最終查詢獨立套用安全評估,與前置範例無關 | 中等 |
| 示範符元預算 | 限制使用者提供範例的符元分配以防大量制約 | 中等 |
| 上下文學習阻尼 | 訓練時技術降低模型對基於範例之制約的易受性 | 高(但影響一般能力) |
關鍵考量
- 效果遵循與示範數的冪律縮放關係——這意味著它可預測、模型無關,並根本繫於上下文學習而非特定安全漏洞
- 攻擊跨不同架構與供應商皆有效,因為它利用 ICL(核心能力而非漏洞)
- 偵測偽造助理回應是高價值防禦訊號,因為合法使用者鮮少於其提示詞中納入假模型輸出
- 上下文視窗限制是鈍但有效的防禦——限制使用者提供範例數降低攻擊威力,但也限制合法 few-shot 使用
- 將 few-shot 操控與角色扮演或社交工程框架結合可放大效果,因為模型同時收到基於模式與基於框架的遵從訊號
- 冪律關係意味著部分防禦(例如將有效範例數減半)僅產生成功率適度降低——防禦必須全面才能有效
- 部署具 100K+ 符元上下文之模型的組織應假設 many-shot 越獄為可行攻擊,並實作偽造對話偵測與範例數限制作為基線防禦
參考文獻
- Anil, C. et al. (2024). "Many-shot Jailbreaking". Anthropic Research. NeurIPS 2024. 示範攻擊成功隨範例數的冪律縮放。
- Anthropic (2024). 「Many-shot Jailbreaking」部落格文章與負責任揭露公告。
- Brown, T. et al. (2020). "Language Models are Few-Shot Learners". NeurIPS 2020. 奠基性的 ICL 研究。
- Wei, A. et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?". NeurIPS 2023. 理解基於 ICL 之安全失敗的理論框架。
- Rao, A. et al. (2024). "Tricking LLMs into Disobedience: Formalizing, Analyzing, and Detecting Jailbreaks". 包含 few-shot 制約作為越獄類別的分析。
- Zheng, S. et al. (2024). "On the Safety Implications of Large Context Windows in LLMs". 分析擴大的上下文視窗如何放大基於 ICL 的攻擊面。