後綴操控攻擊

進階2 分鐘閱讀更新於 2026-03-20

於使用者輸入後附加最佳化的對抗性後綴，利用模型延續傾向產出攻擊者期望的輸出。

概覽

後綴操控攻擊於使用者輸入後附加精心最佳化的字元序列（常看似亂碼），以引導模型產出特定輸出。最著名的例子是 GCG（Greedy Coordinate Gradient）攻擊——透過梯度最佳化於白箱模型中找出可靠引發禁物輸出的後綴。後綴可轉移至黑箱模型，使此技術成為通用攻擊工具。

核心概念

為何有效

LLM 訓練為延續模式——後綴可建立「目標回應」的開頭
對抗性最佳化可找出雖看似亂碼但精確觸發特定 token 序列的輸入
模型對「開頭已確立」的回應傾向於延續，即使與安全訓練衝突
開源權重模型最佳化的後綴常於封閉源模型仍有效

主要技術

GCG：對模型使用梯度下降於 token 空間最佳化後綴
AutoDAN：自動化 DAN 風格變體產生
AmpleGCG：GCG 的擴充，產生多樣化後綴
通用後綴：於多模型／多請求有效的單一後綴

攻擊面分析

攻擊向量	說明	複雜度	影響	可偵測性
GCG 後綴	梯度最佳化的亂碼後綴	高	高	高（亂碼易偵測）
最佳化改寫	組合 GCG 與自然文字改寫	極高	高	中
通用後綴	跨模型／請求轉移的後綴	極高	危急	高
低困惑度後綴	最佳化為看起來「自然」的後綴	極高	高	極低

實務技術

部署現成後綴

研究人員已發表跨多個主要 LLM 有效的 GCG 後綴。紅隊員可測試這些後綴對目標系統的效果。

白箱最佳化

若有模型權重存取（開源模型），使用 GCG 工具（Zou et al. 發表的程式碼）於該模型最佳化後綴。最佳化的後綴可能轉移至類似的封閉源模型。

轉移攻擊

於替身模型（如 Llama-2）最佳化後綴，再部署至目標黑箱模型。研究顯示具可觀察的轉移成功率，尤其於同家族模型之間。

防禦考量

輸入層防禦

困惑度檢查：GCG 後綴常為亂碼，困惑度極高——可被偵測
輸入長度限制：對超過典型長度的輸入進行額外審查
語意分析：即使後綴繞過關鍵字過濾，語意分析仍可能辨識意圖

架構防護

對抗性訓練：將 GCG 攻擊納入訓練以強化模型對後綴的韌性
輸出監控：即使輸入繞過，輸出分類器仍可能捕捉禁物
平滑輸入：於推論前對輸入引入雜訊，破壞對抗性最佳化

測試方法論

階段	活動	工具	交付物
偵察	辨識目標模型家族	自訂腳本	目標輪廓
假設	選擇或最佳化後綴	GCG 工具	後綴池
執行	對目標測試後綴	PyRIT、自訂	測試結果
分析	評估轉移率與穩健性	CVSS 框架	發現資料庫
報告	撰寫可行動報告	報告樣板	最終報告

真實世界範例

Zou et al. (2023) GCG 論文。 示範對 Llama-2、Vicuna 最佳化的後綴可轉移至 ChatGPT、Claude、Bard 等封閉源模型。

AmpleGCG (2024)。 擴充 GCG 以產生多樣化後綴，提高繞過困惑度防禦的機率。

進階主題

跨架構轉移

後綴對同家族模型（基於 Llama 的變體）轉移率最高，跨家族轉移率較低但仍存在。

新興攻擊向量

最新研究聚焦於「語意合理」的後綴——於保持低困惑度下達到 GCG 等效效果，繞過困惑度防禦。

參考文獻

Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Liao, Q. et al. (2024). "AmpleGCG"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

GCG 後綴攻擊的核心機制為何？

後綴操控攻擊

進階2 分鐘閱讀更新於 2026-03-20

於使用者輸入後附加最佳化的對抗性後綴，利用模型延續傾向產出攻擊者期望的輸出。

prompt-injection suffix gcg adversarial

概覽

核心概念

為何有效

LLM 訓練為延續模式——後綴可建立「目標回應」的開頭
對抗性最佳化可找出雖看似亂碼但精確觸發特定 token 序列的輸入
模型對「開頭已確立」的回應傾向於延續，即使與安全訓練衝突
開源權重模型最佳化的後綴常於封閉源模型仍有效

主要技術

GCG：對模型使用梯度下降於 token 空間最佳化後綴
AutoDAN：自動化 DAN 風格變體產生
AmpleGCG：GCG 的擴充，產生多樣化後綴
通用後綴：於多模型／多請求有效的單一後綴

攻擊面分析

攻擊向量	說明	複雜度	影響	可偵測性
GCG 後綴	梯度最佳化的亂碼後綴	高	高	高（亂碼易偵測）
最佳化改寫	組合 GCG 與自然文字改寫	極高	高	中
通用後綴	跨模型／請求轉移的後綴	極高	危急	高
低困惑度後綴	最佳化為看起來「自然」的後綴	極高	高	極低

實務技術

部署現成後綴

研究人員已發表跨多個主要 LLM 有效的 GCG 後綴。紅隊員可測試這些後綴對目標系統的效果。

白箱最佳化

若有模型權重存取（開源模型），使用 GCG 工具（Zou et al. 發表的程式碼）於該模型最佳化後綴。最佳化的後綴可能轉移至類似的封閉源模型。

轉移攻擊

於替身模型（如 Llama-2）最佳化後綴，再部署至目標黑箱模型。研究顯示具可觀察的轉移成功率，尤其於同家族模型之間。

防禦考量

輸入層防禦

困惑度檢查：GCG 後綴常為亂碼，困惑度極高——可被偵測
輸入長度限制：對超過典型長度的輸入進行額外審查
語意分析：即使後綴繞過關鍵字過濾，語意分析仍可能辨識意圖

架構防護

對抗性訓練：將 GCG 攻擊納入訓練以強化模型對後綴的韌性
輸出監控：即使輸入繞過，輸出分類器仍可能捕捉禁物
平滑輸入：於推論前對輸入引入雜訊，破壞對抗性最佳化

測試方法論

階段	活動	工具	交付物
偵察	辨識目標模型家族	自訂腳本	目標輪廓
假設	選擇或最佳化後綴	GCG 工具	後綴池
執行	對目標測試後綴	PyRIT、自訂	測試結果
分析	評估轉移率與穩健性	CVSS 框架	發現資料庫
報告	撰寫可行動報告	報告樣板	最終報告

真實世界範例

Zou et al. (2023) GCG 論文。 示範對 Llama-2、Vicuna 最佳化的後綴可轉移至 ChatGPT、Claude、Bard 等封閉源模型。

AmpleGCG (2024)。 擴充 GCG 以產生多樣化後綴，提高繞過困惑度防禦的機率。

進階主題

跨架構轉移

後綴對同家族模型（基於 Llama 的變體）轉移率最高，跨家族轉移率較低但仍存在。

新興攻擊向量

最新研究聚焦於「語意合理」的後綴——於保持低困惑度下達到 GCG 等效效果，繞過困惑度防禦。

參考文獻

Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
Liao, Q. et al. (2024). "AmpleGCG"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

GCG 後綴攻擊的核心機制為何？

後綴操控攻擊

概覽

核心概念

為何有效

主要技術

攻擊面分析

實務技術

部署現成後綴

白箱最佳化

轉移攻擊

防禦考量

輸入層防禦

架構防護

測試方法論

真實世界範例

進階主題

跨架構轉移

新興攻擊向量

相關主題

參考文獻

後綴操控攻擊

概覽

核心概念

為何有效

主要技術

攻擊面分析

實務技術

部署現成後綴

白箱最佳化

轉移攻擊

防禦考量

輸入層防禦

架構防護

測試方法論

真實世界範例

進階主題

跨架構轉移

新興攻擊向量

相關主題

參考文獻

後綴操控攻擊

相關文章

後綴操控攻擊

相關文章