通用後綴攻擊
專家2 分鐘閱讀更新於 2026-03-20
跨模型與提示詞轉移的通用對抗性後綴的研究與實務。
概覽
通用後綴攻擊是通用對抗性觸發的具體實作——附加於使用者查詢末端以使模型產出禁物回應的後綴字串。此類攻擊的獨特之處在於其跨多種提示詞與多個模型的可轉移性,使其成為高影響工具。
核心概念
與其他後綴攻擊的區別
為何有效
- 於多個提示詞同時最佳化,使後綴學得跨類別有效的「意義」
- 跨模型最佳化產生利用共同架構特性的後綴
- 利用安全對齊的淺層表面——後綴可「推」模型進入可觀察地穩定的「遵從」狀態
攻擊面分析
| 向量 | 說明 | 複雜度 | 影響 | 可偵測性 |
|---|---|---|---|---|
| 已發表通用後綴 | 使用研究社群發表的後綴 | 低-中 | 高 | 高(已知) |
| 自訂通用最佳化 | 於白箱模型最佳化新通用後綴 | 極高 | 高 | 高(亂碼) |
| 低困惑度通用 | 最佳化為「自然」外觀 | 極高 | 危急 | 低 |
實務技術
部署已知後綴
多個研究團隊已發表通用後綴。典型部署:取 Zou et al. 2023 發表的後綴,附加於目標禁物請求末端,送至目標系統。成功率依目標的防禦而異(10-70% 典型)。
自訂最佳化
使用 GCG 或 AmpleGCG 於開源模型最佳化新後綴:
- 選擇多個禁物目標 prompt
- 同時於所有 prompt 最佳化同一後綴
- 評估產生後綴對未見 prompt 的轉移
- 測試對封閉源目標的轉移
防禦考量
- 困惑度檢查(但低困惑度變體正在出現)
- SmoothLLM 類型的輸入擾動
- 對抗訓練納入已知通用後綴
- 輸出監控獨立於輸入
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識目標家族 | 自訂 | 輪廓 |
| 假設 | 選擇後綴池 | GCG 工具 | 後綴池 |
| 執行 | 對多禁物類型測試 | PyRIT | 測試結果 |
| 分析 | 評估通用性 | CVSS | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 樣板 | 最終報告 |
相關主題
參考文獻
- Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
- Liao, Q. et al. (2024). "AmpleGCG"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
通用後綴攻擊為何對防禦特別困難?