Transformer 架構基礎(安全視角)
中級2 分鐘閱讀更新於 2026-03-20
從安全視角理解 transformer 架構基礎:注意力、嵌入、生成如何建立可利用的特性。
概覽
Transformer 架構於 2017 年由 Vaswani 等人引入,成為現代 LLM 的基礎。理解其元件——嵌入、注意力、位置編碼、前饋層、輸出生成——從安全視角至關重要,因為每元件引入獨特行為與攻擊面。
關鍵元件(安全視角)
嵌入層
功能:將符元對應至高維向量表徵。
安全相關:
- 嵌入空間可被反演以還原文字(潛在資料洩漏)
- 同形字可映射至不同嵌入,繞過字串比對
- 嵌入可被攻擊以操控相似度(向量搜尋攻擊)
位置編碼
功能:提供符元順序資訊。
安全相關:
- 位置偏差(「失於中段」效應)
- 外推行為於訓練長度外
- 注意力匯點於序列開頭
注意力機制
功能:動態決定符元關係。
安全相關:
- 所有符元透過相同機制處理——無信任邊界
- 注意力稀釋於長上下文
- 多頭多樣性可被選擇性利用
- 詳見 注意力機制與安全
前饋層
功能:於每注意力層後應用非線性轉換,儲存學得模式。
安全相關:
- 學得關聯可被稀有輸入觸發
- 後門可能植入於這些層
- 機制可解釋性常聚焦於這裡以理解行為
輸出層與取樣
功能:將隱藏狀態轉為符元機率,並取樣下一符元。
安全相關:
- 溫度控制隨機性——較高溫度 → 較多樣、可能較不安全
- Top-k / top-p 取樣可被利用
- Logit 偏差操控可於白箱改變行為
架構變體與其安全特性
標準 Decoder-Only(GPT 風格)
- 自迴歸生成
- 因果注意力
- 常見於主要 LLM
- 安全:廣泛研究,已知攻擊與防禦
Encoder-Decoder(T5 風格)
- 分離編碼與解碼
- 雙向注意力於編碼器
- 安全:不同攻擊面(輸入編碼可被利用)
Mixture of Experts(MoE)
- 動態路由至專家子網路
- 每次前向傳遞啟用部分模型
- 安全:路由操控攻擊、專家特定行為
長上下文架構
- RoPE、ALiBi 位置編碼
- 支援 100K+ 符元上下文
- 安全:Many-shot 越獄、上下文溢位攻擊
推理模型
- 明確 chain-of-thought
- 測試時計算擴充
- 安全:CoT 注入、推理預算攻擊
訓練階段安全意涵
預訓練
- 於大量文字上自監督
- 學得一般語言能力與世界知識
- 安全:能力於此階段被建立,難以於後續移除
監督微調(SFT)
- 於指令跟隨範例微調
- 安全:此階段可植入後門
RLHF / 對齊
- 於人類偏好微調
- 安全:薄層安全建立於此
推論
- 使用訓練後模型產生輸出
- 安全:推論時攻擊(提示詞注入等)
架構對攻擊的意涵
- Transformer 共同弱點:跨所有基於 transformer 的模型共享
- 架構特定攻擊:利用特定變體特性
- 訓練階段特定:某些攻擊於特定階段可能
架構對防禦的意涵
- 無架構級信任:必須於應用層強制
- 多階段防禦:於訓練、微調、推論各階段實作
- 架構感知防禦:利用特定架構特性(例如注意力監控)
相關主題
參考文獻
- Vaswani et al. (2017). "Attention Is All You Need"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
為何 transformer 架構建立的安全限制無法透過更多訓練消除?