# attention
標記為「attention」的 15 篇文章
注意力機制與安全
注意力機制如何運作,以及它們於啟用提示詞注入攻擊中的角色。
給攻擊者的 Transformer 架構
深入探討 transformer 架構——注意力、前饋層與殘差連接——從哪些元件可被利用的視角。
長上下文安全性
10 萬以上符元的上下文視窗所帶來的安全影響,包括注意力稀釋、指令遺忘與利用。
Mechanistic Interpretability for 安全
Understanding model circuits to find vulnerabilities: feature identification, circuit analysis, attention pattern exploitation, and using mechanistic interpretability for offensive and defensive AI security.
注意力操弄研究
以機制可解釋性洞見為依據,研究直接操弄注意力模式以達成注入目標的方法。
安全領域的注意力模式分析
運用注意力地圖來理解並利用模型行為,辨識安全相關的注意力模式,並將注意力機制用於紅隊操作。
Attention Pattern 操控
Craft inputs that manipulate transformer attention patterns to prioritize adversarial content over safety instructions.
Lab: Context Overflow Attacks
探索 context window overflow attacks that push system instructions out of the model's attention by filling the context with padding content, and measure instruction-following degradation.
實驗室: 上下文 Window Overflow Attacks
動手lab exploring how overflowing a model's context window with padding content can push safety instructions out of the attention window與enable injection attacks.
注意力利用
利用 transformer 注意力機制引導模型行為——涵蓋注意力稀釋、位置偏誤利用、注意力劫持與上下文視窗操控。
Transformer 注意力機制攻擊
針對 Transformer 注意力機制的攻擊,包括注意力偏置與長上下文利用。
上下文溢位攻擊
以填塞內容填滿大型語言模型上下文視窗,把系統指令推出注意力之外,降低其對模型行為影響力的技術。
上下文視窗利用
利用大型語言模型上下文視窗機制的進階技術,包含注意力稀釋、位置編碼攻擊、KV 快取操控與上下文邊界混淆。
注意力劫持攻擊詳解
Hijack transformer attention mechanisms to redirect model focus toward adversarial instructions in the context.
Model Context Window Overflow 詳解
Overflow the context window to push safety instructions outside the effective attention range.