後綴操控攻擊
進階2 分鐘閱讀更新於 2026-03-20
於使用者輸入後附加最佳化的對抗性後綴,利用模型延續傾向產出攻擊者期望的輸出。
概覽
後綴操控攻擊於使用者輸入後附加精心最佳化的字元序列(常看似亂碼),以引導模型產出特定輸出。最著名的例子是 GCG(Greedy Coordinate Gradient)攻擊——透過梯度最佳化於白箱模型中找出可靠引發禁物輸出的後綴。後綴可轉移至黑箱模型,使此技術成為通用攻擊工具。
核心概念
為何有效
- LLM 訓練為延續模式——後綴可建立「目標回應」的開頭
- 對抗性最佳化可找出雖看似亂碼但精確觸發特定 token 序列的輸入
- 模型對「開頭已確立」的回應傾向於延續,即使與安全訓練衝突
- 開源權重模型最佳化的後綴常於封閉源模型仍有效
主要技術
- GCG:對模型使用梯度下降於 token 空間最佳化後綴
- AutoDAN:自動化 DAN 風格變體產生
- AmpleGCG:GCG 的擴充,產生多樣化後綴
- 通用後綴:於多模型/多請求有效的單一後綴
攻擊面分析
| 攻擊向量 | 說明 | 複雜度 | 影響 | 可偵測性 |
|---|---|---|---|---|
| GCG 後綴 | 梯度最佳化的亂碼後綴 | 高 | 高 | 高(亂碼易偵測) |
| 最佳化改寫 | 組合 GCG 與自然文字改寫 | 極高 | 高 | 中 |
| 通用後綴 | 跨模型/請求轉移的後綴 | 極高 | 危急 | 高 |
| 低困惑度後綴 | 最佳化為看起來「自然」的後綴 | 極高 | 高 | 極低 |
實務技術
部署現成後綴
研究人員已發表跨多個主要 LLM 有效的 GCG 後綴。紅隊員可測試這些後綴對目標系統的效果。
白箱最佳化
若有模型權重存取(開源模型),使用 GCG 工具(Zou et al. 發表的程式碼)於該模型最佳化後綴。最佳化的後綴可能轉移至類似的封閉源模型。
轉移攻擊
於替身模型(如 Llama-2)最佳化後綴,再部署至目標黑箱模型。研究顯示具可觀察的轉移成功率,尤其於同家族模型之間。
防禦考量
輸入層防禦
- 困惑度檢查:GCG 後綴常為亂碼,困惑度極高——可被偵測
- 輸入長度限制:對超過典型長度的輸入進行額外審查
- 語意分析:即使後綴繞過關鍵字過濾,語意分析仍可能辨識意圖
架構防護
- 對抗性訓練:將 GCG 攻擊納入訓練以強化模型對後綴的韌性
- 輸出監控:即使輸入繞過,輸出分類器仍可能捕捉禁物
- 平滑輸入:於推論前對輸入引入雜訊,破壞對抗性最佳化
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識目標模型家族 | 自訂腳本 | 目標輪廓 |
| 假設 | 選擇或最佳化後綴 | GCG 工具 | 後綴池 |
| 執行 | 對目標測試後綴 | PyRIT、自訂 | 測試結果 |
| 分析 | 評估轉移率與穩健性 | CVSS 框架 | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 報告樣板 | 最終報告 |
真實世界範例
Zou et al. (2023) GCG 論文。 示範對 Llama-2、Vicuna 最佳化的後綴可轉移至 ChatGPT、Claude、Bard 等封閉源模型。
AmpleGCG (2024)。 擴充 GCG 以產生多樣化後綴,提高繞過困惑度防禦的機率。
進階主題
跨架構轉移
後綴對同家族模型(基於 Llama 的變體)轉移率最高,跨家族轉移率較低但仍存在。
新興攻擊向量
最新研究聚焦於「語意合理」的後綴——於保持低困惑度下達到 GCG 等效效果,繞過困惑度防禦。
相關主題
參考文獻
- Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
- Liao, Q. et al. (2024). "AmpleGCG"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
GCG 後綴攻擊的核心機制為何?