Transformer 架構基礎（安全視角）

中級2 分鐘閱讀更新於 2026-03-20

從安全視角理解 transformer 架構基礎：注意力、嵌入、生成如何建立可利用的特性。

transformer architecture security foundations

概覽

Transformer 架構於 2017 年由 Vaswani 等人引入，成為現代 LLM 的基礎。理解其元件——嵌入、注意力、位置編碼、前饋層、輸出生成——從安全視角至關重要，因為每元件引入獨特行為與攻擊面。

關鍵元件（安全視角）

嵌入層

功能：將符元對應至高維向量表徵。

安全相關：

嵌入空間可被反演以還原文字（潛在資料洩漏）
同形字可映射至不同嵌入，繞過字串比對
嵌入可被攻擊以操控相似度（向量搜尋攻擊）

位置編碼

功能：提供符元順序資訊。

安全相關：

位置偏差（「失於中段」效應）
外推行為於訓練長度外
注意力匯點於序列開頭

注意力機制

功能：動態決定符元關係。

安全相關：

所有符元透過相同機制處理——無信任邊界
注意力稀釋於長上下文
多頭多樣性可被選擇性利用
詳見注意力機制與安全

前饋層

功能：於每注意力層後應用非線性轉換，儲存學得模式。

安全相關：

學得關聯可被稀有輸入觸發
後門可能植入於這些層
機制可解釋性常聚焦於這裡以理解行為

輸出層與取樣

功能：將隱藏狀態轉為符元機率，並取樣下一符元。

安全相關：

溫度控制隨機性——較高溫度 → 較多樣、可能較不安全
Top-k / top-p 取樣可被利用
Logit 偏差操控可於白箱改變行為

架構變體與其安全特性

標準 Decoder-Only（GPT 風格）

自迴歸生成
因果注意力
常見於主要 LLM
安全：廣泛研究，已知攻擊與防禦

Encoder-Decoder（T5 風格）

分離編碼與解碼
雙向注意力於編碼器
安全：不同攻擊面（輸入編碼可被利用）

Mixture of Experts（MoE）

動態路由至專家子網路
每次前向傳遞啟用部分模型
安全：路由操控攻擊、專家特定行為

長上下文架構

RoPE、ALiBi 位置編碼
支援 100K+ 符元上下文
安全：Many-shot 越獄、上下文溢位攻擊

推理模型

明確 chain-of-thought
測試時計算擴充
安全：CoT 注入、推理預算攻擊

訓練階段安全意涵

預訓練

於大量文字上自監督
學得一般語言能力與世界知識
安全：能力於此階段被建立，難以於後續移除

監督微調（SFT）

於指令跟隨範例微調
安全：此階段可植入後門

RLHF / 對齊

於人類偏好微調
安全：薄層安全建立於此

推論

使用訓練後模型產生輸出
安全：推論時攻擊（提示詞注入等）

架構對攻擊的意涵

Transformer 共同弱點：跨所有基於 transformer 的模型共享
架構特定攻擊：利用特定變體特性
訓練階段特定：某些攻擊於特定階段可能

架構對防禦的意涵

無架構級信任：必須於應用層強制
多階段防禦：於訓練、微調、推論各階段實作
架構感知防禦：利用特定架構特性（例如注意力監控）

參考文獻

Vaswani et al. (2017). "Attention Is All You Need"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何 transformer 架構建立的安全限制無法透過更多訓練消除？

Transformer 架構基礎（安全視角）

中級2 分鐘閱讀更新於 2026-03-20

從安全視角理解 transformer 架構基礎：注意力、嵌入、生成如何建立可利用的特性。

transformer architecture security foundations

概覽

關鍵元件（安全視角）

嵌入層

功能：將符元對應至高維向量表徵。

安全相關：

嵌入空間可被反演以還原文字（潛在資料洩漏）
同形字可映射至不同嵌入，繞過字串比對
嵌入可被攻擊以操控相似度（向量搜尋攻擊）

位置編碼

功能：提供符元順序資訊。

安全相關：

位置偏差（「失於中段」效應）
外推行為於訓練長度外
注意力匯點於序列開頭

注意力機制

功能：動態決定符元關係。

安全相關：

所有符元透過相同機制處理——無信任邊界
注意力稀釋於長上下文
多頭多樣性可被選擇性利用
詳見注意力機制與安全

前饋層

功能：於每注意力層後應用非線性轉換，儲存學得模式。

安全相關：

學得關聯可被稀有輸入觸發
後門可能植入於這些層
機制可解釋性常聚焦於這裡以理解行為

輸出層與取樣

功能：將隱藏狀態轉為符元機率，並取樣下一符元。

安全相關：

溫度控制隨機性——較高溫度 → 較多樣、可能較不安全
Top-k / top-p 取樣可被利用
Logit 偏差操控可於白箱改變行為

架構變體與其安全特性

標準 Decoder-Only（GPT 風格）

自迴歸生成
因果注意力
常見於主要 LLM
安全：廣泛研究，已知攻擊與防禦

Encoder-Decoder（T5 風格）

分離編碼與解碼
雙向注意力於編碼器
安全：不同攻擊面（輸入編碼可被利用）

Mixture of Experts（MoE）

動態路由至專家子網路
每次前向傳遞啟用部分模型
安全：路由操控攻擊、專家特定行為

長上下文架構

RoPE、ALiBi 位置編碼
支援 100K+ 符元上下文
安全：Many-shot 越獄、上下文溢位攻擊

推理模型

明確 chain-of-thought
測試時計算擴充
安全：CoT 注入、推理預算攻擊

訓練階段安全意涵

預訓練

於大量文字上自監督
學得一般語言能力與世界知識
安全：能力於此階段被建立，難以於後續移除

監督微調（SFT）

於指令跟隨範例微調
安全：此階段可植入後門

RLHF / 對齊

於人類偏好微調
安全：薄層安全建立於此

推論

使用訓練後模型產生輸出
安全：推論時攻擊（提示詞注入等）

架構對攻擊的意涵

Transformer 共同弱點：跨所有基於 transformer 的模型共享
架構特定攻擊：利用特定變體特性
訓練階段特定：某些攻擊於特定階段可能

架構對防禦的意涵

無架構級信任：必須於應用層強制
多階段防禦：於訓練、微調、推論各階段實作
架構感知防禦：利用特定架構特性（例如注意力監控）

參考文獻

Vaswani et al. (2017). "Attention Is All You Need"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何 transformer 架構建立的安全限制無法透過更多訓練消除？

Transformer 架構基礎（安全視角）

相關文章

Transformer 架構基礎（安全視角）

相關文章