注意力機制與安全
中級1 分鐘閱讀更新於 2026-03-20
注意力機制如何運作,以及它們於啟用提示詞注入攻擊中的角色。
概覽
注意力機制是 transformer 架構的核心創新——它允許模型動態決定「哪些符元彼此相關」,而非依賴固定的符元關係。這使 transformer 能處理長距離依賴,但也引入了可利用的動態——攻擊者可操控模型關注什麼以達成不期望的輸出。
核心概念
注意力的基本運作
對每個符元,注意力機制:
- 計算該符元對上下文中每個其他符元的「相關性分數」
- 將這些分數正規化為注意力權重(總和為 1)
- 使用這些權重對上下文符元進行加權和,產生該符元的更新表徵
此過程跨多層重複,使模型建立越來越豐富的符元間關係。
安全相關特性
- 位置無關:注意力不受位置絕對限制——第一符元可強烈關注最後符元
- 權重稀釋:更多符元意味著任一固定權重集的相對影響較小
- 多頭多樣性:不同注意力頭可關注不同面向(語法、語意、位置)
- 層級累積:深層注意力基於前層的表徵——早期注意力錯誤會放大
注意力動態如何啟用攻擊
注意力稀釋攻擊
於大上下文視窗中,系統提示詞可能獲得不成比例的低注意力權重。攻擊者透過填塞可大幅降低系統指令的影響力。參閱 上下文溢位。
位置偏差利用
多數模型呈現「失於中段」效應——對脈絡中段內容的注意力降低。攻擊者可於模型聚焦的位置(開頭與末端)放置內容。
注意力匯點
研究顯示 transformer 模型於序列開頭的幾個符元放置不成比例的注意力。此「注意力匯點」行為可被利用。參閱 上下文視窗利用。
近因偏差
末端內容通常獲得較高注意力。這使對話末端的注入有優勢。
防禦意涵
輸入層防禦
- 監控輸入長度並對接近模型上下文視窗上限的請求進行額外審查
- 於輸入末端(使用者輸入後)重新注入安全指令以利用近因偏差
架構防護
- 於訓練中強化跨位置的安全訓練(不僅於序列開頭)
- 使用位置編碼變體(ALiBi、RoPE)於長上下文有不同注意力特性
- 明確對抗訓練涵蓋注意力稀釋情境
測試方法論
測試對注意力動態敏感度:
- 基線:確認模型於短上下文遵循系統指令
- 漸增稀釋:以填塞逐步擴大上下文並測試指令遵循
- 位置變化:於不同位置放置相同注入,評估位置效應
- 記錄衰減曲線:繪製指令遵循率 vs. 上下文長度
真實世界研究
- "Lost in the Middle"(Liu et al. 2023):展示中段內容獲得較低注意力
- "Attention Sinks"(Xiao et al. 2023):辨識與量化注意力匯點行為
- "Many-Shot Jailbreaking"(Anthropic 2024):將注意力動態連結至安全失敗的冪律縮放
相關主題
參考文獻
- Vaswani et al. (2017). "Attention Is All You Need"
- Liu, N. et al. (2023). "Lost in the Middle"
- Xiao, G. et al. (2023). "Efficient Streaming Language Models with Attention Sinks"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
為何注意力機制既是 transformer 能力的來源、也是提示詞注入的根本啟用者?