符元層級對抗攻擊
進階2 分鐘閱讀更新於 2026-03-20
使用基於梯度的最佳化與符元操控,發掘能可靠觸發不安全模型行為的對抗性後綴。
概覽
符元層級對抗攻擊於分詞後的 token 空間運作,而非字元或字層級。這些攻擊(如 GCG、AutoDAN、AmpleGCG)使用梯度最佳化找出具特定特性的 token 序列——最大化觸發禁物輸出的機率、繞過安全分類器,或於多模型轉移。
核心概念
為何於 token 層級運作
- LLM 處理 token 而非字元——攻擊於此層級直接影響模型輸入
- 梯度可於 token 空間計算,允許精確最佳化
- 符元可能個別看似無害但組合觸發特定行為
- 最佳化可跨模型轉移(尤其於同分詞器家族)
主要方法
- GCG(Greedy Coordinate Gradient):於 token 位置迭代替換以最小化目標損失
- AutoDAN:遺傳演算法演化攻擊 token 序列
- AmpleGCG:擴充 GCG 產生多樣化、通用後綴
- BEAST:束搜尋版本的對抗最佳化
- GPTFuzzer:結合 GCG 與模糊測試的混合方法
攻擊面分析
| 攻擊向量 | 說明 | 複雜度 | 影響 | 可偵測性 |
|---|---|---|---|---|
| GCG 基本 | 白箱梯度最佳化 | 高 | 高 | 高(亂碼) |
| AutoDAN | 遺傳演算法演化 | 高 | 高 | 中 |
| 多樣化 AmpleGCG | 多後綴組合 | 極高 | 高 | 中 |
| 跨模型轉移 | 於替身最佳化再部署 | 極高 | 危急 | 高 |
| 低困惑度最佳化 | 最佳化使後綴看似自然 | 極高 | 高 | 低 |
實務技術
部署公開後綴
研究社群已發表數個已最佳化的通用後綴。測試這些後綴於目標系統的轉移效果——通常於同家族模型有顯著成功率。
白箱最佳化(若有權重)
於開源模型(Llama、Mistral)使用 GCG 工具於目標禁物 prompt 最佳化後綴。典型設定:
- 最佳化視窗:20 個 token
- 迭代次數:500-1000
- 批次大小:512 對抗替換
- 取樣:top-k=256
跨架構轉移
於 Llama-2-7B 最佳化的後綴通常對 Llama-3、Vicuna 有較高轉移率。對更遠的架構(GPT-4、Claude),轉移率較低但常仍可觀察(10-30% 典型)。
防禦考量
輸入層防禦
- 困惑度檢查:GCG 後綴通常為亂碼,困惑度極高
- 輸入長度限制:額外審查超過典型長度的輸入
- SmoothLLM:於推論前對輸入引入隨機字元擾動,破壞最佳化
- 語意分析:即使後綴通過,LLM 作為裁判可能辨識意圖
架構防護
- 對抗訓練:將 GCG 類攻擊納入 RLHF 訓練
- 輸出監控:即使輸入通過,輸出分類器可能捕捉禁物
- 隨機化:於推論時對輸入進行隨機擾動或重述
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識目標家族與架構 | 自訂 | 目標輪廓 |
| 假設 | 選擇或最佳化後綴 | GCG 工具 | 後綴池 |
| 執行 | 對目標測試 | PyRIT、自訂 | 測試結果 |
| 分析 | 評估轉移率與穩健性 | CVSS | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 樣板 | 最終報告 |
真實世界範例
- Zou et al. (2023) GCG 論文:跨 Llama、Vicuna 到 ChatGPT、Claude、Bard 的可觀轉移
- AmpleGCG (2024):多樣化後綴以規避困惑度防禦
進階主題
跨架構轉移
於同分詞器家族(SentencePiece、BPE 變體)內轉移率最高。跨不同分詞器的轉移較難但非不可能。
新興攻擊向量
最新研究聚焦於「自然」低困惑度後綴,使傳統困惑度防禦不再有效。LLM 驅動的最佳化(使用更大模型產生有效後綴)是快速演進的方向。
相關主題
參考文獻
- Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
- Liao, Q. et al. (2024). "AmpleGCG"
- Robey, A. et al. (2023). "SmoothLLM"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
為何符元層級對抗攻擊於 token 空間而非字元或字層級運作?