通用對抗性觸發
專家2 分鐘閱讀更新於 2026-03-16
發掘並部署能跨多個大型語言模型家族可靠覆寫安全對齊的通用對抗性觸發序列,包含基於梯度的搜尋、轉移攻擊與防禦規避。
概覽
通用對抗性觸發(UAT)是符元序列——通常看似亂碼——可當作前綴或後綴附加於任何禁物請求,並可靠使模型遵從。不像針對特定請求最佳化的後綴,UAT 對整個類別的請求有效,使單一觸發可啟用廣泛的攻擊。Wallace 等人(2019)與 Zou 等人(2023)於此領域做出奠基性工作。
核心概念
為何有效
- 語言模型具「觸發敏感」區域——某些 token 序列強烈偏移輸出分佈
- 跨任務/請求的共同「有害」方向可被最佳化成單一後綴
- 於多模型同時最佳化產生跨家族轉移的觸發
- 觸發利用安全對齊的「淺層」本質——安全於某些輸入條件下可被覆寫
主要類別
- 類別通用:對某類請求(例如所有有害請求)有效
- 任務通用:跨任務通用(問答、分類、生成)
- 模型通用:跨多模型家族有效
- 跨模式:於文字與其他模態中皆有效
攻擊面分析
| 觸發類型 | 說明 | 複雜度 | 影響 | 可偵測性 |
|---|---|---|---|---|
| 類別通用 | 對特定類別(如 harmful)有效 | 極高 | 高 | 高(困惑度) |
| 任務通用 | 跨任務有效 | 極高 | 高 | 高 |
| 模型通用 | 跨家族有效 | 極高 | 危急 | 高 |
| 自然語言通用 | 低困惑度版本 | 極高 | 危急 | 低 |
實務技術
部署已知觸發
研究社群已發表多個跨 Llama、Vicuna、ChatGPT、Claude 有效的通用觸發。測試這些對目標的效果——成功率常顯著。
白箱最佳化
若具模型權重(開源),使用 GCG 變體於多個禁物請求同時最佳化後綴。此過程產出跨該類別通用的觸發。
轉移攻擊
於開源替身(Llama-2、Vicuna)最佳化再部署至封閉源目標。Zou et al. 示範此方法對 ChatGPT、Claude、Bard 皆有效(雖成功率較低於目標模型)。
防禦考量
輸入層防禦
- 困惑度檢查:典型 UAT 為亂碼,困惑度極高
- SmoothLLM:於推論前對輸入引入雜訊,破壞精密最佳化
- 輸入重述:LLM 作為中介重述使用者輸入,破壞特定觸發序列
架構防護
- 對抗訓練:將已知 UAT 納入安全訓練
- 輸出監控:即使輸入通過,輸出分類器仍可能捕捉禁物
- 多層拒絕:拒絕邏輯不僅依賴單層安全訓練
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識目標家族 | 自訂 | 輪廓 |
| 假設 | 選擇已知或最佳化新觸發 | GCG 工具 | 觸發池 |
| 執行 | 對多禁物類別測試 | PyRIT | 測試結果 |
| 分析 | 評估通用性與轉移率 | CVSS | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 樣板 | 最終報告 |
真實世界範例
- Zou et al. (2023) 發表的通用後綴於多主要 LLM 有效
- Wallace et al. (2019) 早期工作於 SNLI、SQuAD 展示通用觸發概念
進階主題
跨架構轉移
通用觸發於同家族模型(Llama 系列、GPT 系列)轉移最強。跨完全不同架構(如 GPT → Claude)轉移較難但研究顯示仍存在。
新興攻擊向量
最新研究聚焦於「自然語言」通用觸發——於低困惑度下達到類似效果,使困惑度防禦無效。
相關主題
參考文獻
- Wallace, E. et al. (2019). "Universal Adversarial Triggers for Attacking and Analyzing NLP"
- Zou, A. et al. (2023). "Universal and Transferable Adversarial Attacks on Aligned Language Models"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
通用對抗性觸發與特定請求最佳化後綴的主要差異為何?