符元層級對抗攻擊

進階2 分鐘閱讀更新於 2026-03-20

使用基於梯度的最佳化與符元操控，發掘能可靠觸發不安全模型行為的對抗性後綴。

prompt-injection token-level adversarial gcg

概覽

符元層級對抗攻擊於分詞後的 token 空間運作，而非字元或字層級。這些攻擊（如 GCG、AutoDAN、AmpleGCG）使用梯度最佳化找出具特定特性的 token 序列——最大化觸發禁物輸出的機率、繞過安全分類器，或於多模型轉移。

核心概念

為何於 token 層級運作

LLM 處理 token 而非字元——攻擊於此層級直接影響模型輸入
梯度可於 token 空間計算，允許精確最佳化
符元可能個別看似無害但組合觸發特定行為
最佳化可跨模型轉移（尤其於同分詞器家族）

主要方法

GCG（Greedy Coordinate Gradient）：於 token 位置迭代替換以最小化目標損失
AutoDAN：遺傳演算法演化攻擊 token 序列
AmpleGCG：擴充 GCG 產生多樣化、通用後綴
BEAST：束搜尋版本的對抗最佳化
GPTFuzzer：結合 GCG 與模糊測試的混合方法

攻擊面分析

攻擊向量	說明	複雜度	影響	可偵測性
GCG 基本	白箱梯度最佳化	高	高	高（亂碼）
AutoDAN	遺傳演算法演化	高	高	中
多樣化 AmpleGCG	多後綴組合	極高	高	中
跨模型轉移	於替身最佳化再部署	極高	危急	高
低困惑度最佳化	最佳化使後綴看似自然	極高	高	低

實務技術

部署公開後綴

研究社群已發表數個已最佳化的通用後綴。測試這些後綴於目標系統的轉移效果——通常於同家族模型有顯著成功率。

白箱最佳化（若有權重）

於開源模型（Llama、Mistral）使用 GCG 工具於目標禁物 prompt 最佳化後綴。典型設定：

最佳化視窗：20 個 token
迭代次數：500-1000
批次大小：512 對抗替換
取樣：top-k=256

跨架構轉移

於 Llama-2-7B 最佳化的後綴通常對 Llama-3、Vicuna 有較高轉移率。對更遠的架構（GPT-4、Claude），轉移率較低但常仍可觀察（10-30% 典型）。

防禦考量

輸入層防禦

困惑度檢查：GCG 後綴通常為亂碼，困惑度極高
輸入長度限制：額外審查超過典型長度的輸入
SmoothLLM：於推論前對輸入引入隨機字元擾動，破壞最佳化
語意分析：即使後綴通過，LLM 作為裁判可能辨識意圖

架構防護

對抗訓練：將 GCG 類攻擊納入 RLHF 訓練
輸出監控：即使輸入通過，輸出分類器可能捕捉禁物
隨機化：於推論時對輸入進行隨機擾動或重述

測試方法論

階段	活動	工具	交付物
偵察	辨識目標家族與架構	自訂	目標輪廓
假設	選擇或最佳化後綴	GCG 工具	後綴池
執行	對目標測試	PyRIT、自訂	測試結果
分析	評估轉移率與穩健性	CVSS	發現資料庫
報告	撰寫可行動報告	樣板	最終報告

真實世界範例

Zou et al. (2023) GCG 論文：跨 Llama、Vicuna 到 ChatGPT、Claude、Bard 的可觀轉移
AmpleGCG (2024)：多樣化後綴以規避困惑度防禦

進階主題

跨架構轉移

於同分詞器家族（SentencePiece、BPE 變體）內轉移率最高。跨不同分詞器的轉移較難但非不可能。

新興攻擊向量

最新研究聚焦於「自然」低困惑度後綴，使傳統困惑度防禦不再有效。LLM 驅動的最佳化（使用更大模型產生有效後綴）是快速演進的方向。

參考文獻

Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Liao, Q. et al. (2024). "AmpleGCG"
Robey, A. et al. (2023). "SmoothLLM"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何符元層級對抗攻擊於 token 空間而非字元或字層級運作？

符元層級對抗攻擊

進階2 分鐘閱讀更新於 2026-03-20

使用基於梯度的最佳化與符元操控，發掘能可靠觸發不安全模型行為的對抗性後綴。

prompt-injection token-level adversarial gcg

概覽

核心概念

為何於 token 層級運作

LLM 處理 token 而非字元——攻擊於此層級直接影響模型輸入
梯度可於 token 空間計算，允許精確最佳化
符元可能個別看似無害但組合觸發特定行為
最佳化可跨模型轉移（尤其於同分詞器家族）

主要方法

GCG（Greedy Coordinate Gradient）：於 token 位置迭代替換以最小化目標損失
AutoDAN：遺傳演算法演化攻擊 token 序列
AmpleGCG：擴充 GCG 產生多樣化、通用後綴
BEAST：束搜尋版本的對抗最佳化
GPTFuzzer：結合 GCG 與模糊測試的混合方法

攻擊面分析

攻擊向量	說明	複雜度	影響	可偵測性
GCG 基本	白箱梯度最佳化	高	高	高（亂碼）
AutoDAN	遺傳演算法演化	高	高	中
多樣化 AmpleGCG	多後綴組合	極高	高	中
跨模型轉移	於替身最佳化再部署	極高	危急	高
低困惑度最佳化	最佳化使後綴看似自然	極高	高	低

實務技術

部署公開後綴

研究社群已發表數個已最佳化的通用後綴。測試這些後綴於目標系統的轉移效果——通常於同家族模型有顯著成功率。

白箱最佳化（若有權重）

於開源模型（Llama、Mistral）使用 GCG 工具於目標禁物 prompt 最佳化後綴。典型設定：

最佳化視窗：20 個 token
迭代次數：500-1000
批次大小：512 對抗替換
取樣：top-k=256

跨架構轉移

於 Llama-2-7B 最佳化的後綴通常對 Llama-3、Vicuna 有較高轉移率。對更遠的架構（GPT-4、Claude），轉移率較低但常仍可觀察（10-30% 典型）。

防禦考量

輸入層防禦

困惑度檢查：GCG 後綴通常為亂碼，困惑度極高
輸入長度限制：額外審查超過典型長度的輸入
SmoothLLM：於推論前對輸入引入隨機字元擾動，破壞最佳化
語意分析：即使後綴通過，LLM 作為裁判可能辨識意圖

架構防護

對抗訓練：將 GCG 類攻擊納入 RLHF 訓練
輸出監控：即使輸入通過，輸出分類器可能捕捉禁物
隨機化：於推論時對輸入進行隨機擾動或重述

測試方法論

階段	活動	工具	交付物
偵察	辨識目標家族與架構	自訂	目標輪廓
假設	選擇或最佳化後綴	GCG 工具	後綴池
執行	對目標測試	PyRIT、自訂	測試結果
分析	評估轉移率與穩健性	CVSS	發現資料庫
報告	撰寫可行動報告	樣板	最終報告

真實世界範例

Zou et al. (2023) GCG 論文：跨 Llama、Vicuna 到 ChatGPT、Claude、Bard 的可觀轉移
AmpleGCG (2024)：多樣化後綴以規避困惑度防禦

進階主題

跨架構轉移

於同分詞器家族（SentencePiece、BPE 變體）內轉移率最高。跨不同分詞器的轉移較難但非不可能。

新興攻擊向量

最新研究聚焦於「自然」低困惑度後綴，使傳統困惑度防禦不再有效。LLM 驅動的最佳化（使用更大模型產生有效後綴）是快速演進的方向。

參考文獻

Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Liao, Q. et al. (2024). "AmpleGCG"
Robey, A. et al. (2023). "SmoothLLM"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何符元層級對抗攻擊於 token 空間而非字元或字層級運作？

符元層級對抗攻擊

概覽

核心概念

為何於 token 層級運作

主要方法

攻擊面分析

實務技術

部署公開後綴

白箱最佳化（若有權重）

跨架構轉移

防禦考量

輸入層防禦

架構防護

測試方法論

真實世界範例

進階主題

跨架構轉移

新興攻擊向量

相關主題

參考文獻

符元層級對抗攻擊

概覽

核心概念

為何於 token 層級運作

主要方法

攻擊面分析

實務技術

部署公開後綴

白箱最佳化（若有權重）

跨架構轉移

防禦考量

輸入層防禦

架構防護

測試方法論

真實世界範例

進階主題

跨架構轉移

新興攻擊向量

相關主題

參考文獻

符元層級對抗攻擊

相關文章

符元層級對抗攻擊

相關文章