注意力利用

Intermediate1 min readUpdated 2026-03-12

利用 transformer 注意力機制引導模型行為——涵蓋注意力稀釋、位置偏誤利用、注意力劫持與上下文視窗操控。

注意力機制是 transformer 的核心——它決定模型「關注」上下文中的什麼。理解注意力的運作方式直接轉化為攻擊能力。

注意力如何建立攻擊面

模型對上下文中不同位置的符元給予不同注意力權重。研究顯示大多數模型具有「首位偏誤」（開頭符元獲得更多注意力）與「近因偏誤」（最近符元獲得更多注意力），中間符元獲得較少注意力（「中間迷失」效應）。

攻擊者可利用此點：將注入 payload 放在模型注意力最高的位置（開頭或結尾）以最大化其影響。

增加上下文長度以稀釋系統提示詞在注意力預算中的份額。在系統提示詞與使用者訊息之間插入大量文字以「淹沒」安全指令。

打造在注意力計算中產生異常高權重的輸入——使用重複、格式化或特殊標記吸引模型的注意力離開安全指令。

注意力監控：監控注意力分布以偵測異常模式。上下文視窗管理：限制使用者輸入長度以防止稀釋。指令重複：在系統提示詞開頭與結尾重複關鍵安全指令。位置強化：將最關鍵指令放在注意力最高的位置。

Intermediate1 min readUpdated 2026-03-12

利用 transformer 注意力機制引導模型行為——涵蓋注意力稀釋、位置偏誤利用、注意力劫持與上下文視窗操控。

注意力機制是 transformer 的核心——它決定模型「關注」上下文中的什麼。理解注意力的運作方式直接轉化為攻擊能力。

攻擊者可利用此點：將注入 payload 放在模型注意力最高的位置（開頭或結尾）以最大化其影響。

增加上下文長度以稀釋系統提示詞在注意力預算中的份額。在系統提示詞與使用者訊息之間插入大量文字以「淹沒」安全指令。

打造在注意力計算中產生異常高權重的輸入——使用重複、格式化或特殊標記吸引模型的注意力離開安全指令。