注意力利用
Intermediate1 min readUpdated 2026-03-12
利用 transformer 注意力機制引導模型行為——涵蓋注意力稀釋、位置偏誤利用、注意力劫持與上下文視窗操控。
注意力機制是 transformer 的核心——它決定模型「關注」上下文中的什麼。理解注意力的運作方式直接轉化為攻擊能力。
注意力如何建立攻擊面
位置偏誤
模型對上下文中不同位置的符元給予不同注意力權重。研究顯示大多數模型具有「首位偏誤」(開頭符元獲得更多注意力)與「近因偏誤」(最近符元獲得更多注意力),中間符元獲得較少注意力(「中間迷失」效應)。
攻擊者可利用此點:將注入 payload 放在模型注意力最高的位置(開頭或結尾)以最大化其影響。
注意力稀釋
增加上下文長度以稀釋系統提示詞在注意力預算中的份額。在系統提示詞與使用者訊息之間插入大量文字以「淹沒」安全指令。
注意力劫持
打造在注意力計算中產生異常高權重的輸入——使用重複、格式化或特殊標記吸引模型的注意力離開安全指令。
偵測與緩解
注意力監控:監控注意力分布以偵測異常模式。上下文視窗管理:限制使用者輸入長度以防止稀釋。指令重複:在系統提示詞開頭與結尾重複關鍵安全指令。位置強化:將最關鍵指令放在注意力最高的位置。