What is Transformer Architecture for 攻擊ers?

Deep dive into the transformer architecture — attention, feed-forward layers, and residual connections — through the lens of which components are exploitable.

What is Tokenization & Its 安全 Implications?

How BPE and SentencePiece tokenizers work, and how tokenizer behavior creates exploitable attack surfaces including boundary attacks, homoglyphs, and encoding tricks.

What is 預訓練 → 微調 → RLHF 管線?

瞭解打造對齊 LLM 的三階段流程——預訓練、監督式微調、RLHF/DPO——以及各階段的安全意涵。

What is 推論：取樣、Temperature 與生成?

LLM 如何在推論期生成文字——greedy decoding、top-k、top-p、temperature——以及這些參數如何影響攻擊成功率。

What is 縮放定律、湧現與能力躍升?

縮放定律如何預測模型效能、湧現能力為何造成不可預期的安全特性，以及沉睡能力與湧現式對齊失誤對紅隊的意涵。

大型語言模型如何運作

Beginner1 min readUpdated 2026-03-12

從安全視角理解大型語言模型——涵蓋 transformer 架構、分詞、注意力、訓練流程與安全對齊機制。

llm transformer architecture training alignment foundations

理解大型語言模型如何運作是有效 AI 紅隊演練的基礎。你不需要能從零建構模型——但你需要理解 transformer 架構的核心元件、訓練流程如何塑造行為，以及安全對齊的機制與限制。

Transformer 架構

大型語言模型基於 transformer 架構。核心元件：分詞器 將文字切分為符元、嵌入層 將符元對應至向量、注意力層 決定符元間的資訊流動、前饋層 儲存學到的關聯、輸出層 產生下一個符元的機率。

訓練流程

預訓練：在大量文字上學習語言模式。監督式微調（SFT）：學習遵循指令。安全對齊：學習拒絕有害請求。

安全對齊方法

RLHF：從人類回饋學習偏好安全回應。Constitutional AI：使用原則集自我批評與修訂。DPO：直接最佳化偏好而不需要獎勵模型。

對紅隊員的意涵

安全對齊是學到的行為而非架構限制。它可被繞過因為它在與所有其他學到的行為相同的權重空間中運作。理解這一點是理解為何越獄有效的基礎。

大型語言模型如何運作

Beginner1 min readUpdated 2026-03-12

從安全視角理解大型語言模型——涵蓋 transformer 架構、分詞、注意力、訓練流程與安全對齊機制。

llm transformer architecture training alignment foundations

大型語言模型如何運作

Transformer 架構

訓練流程

安全對齊方法

對紅隊員的意涵

Learning Path

大型語言模型如何運作

Transformer 架構

訓練流程

安全對齊方法

對紅隊員的意涵

Learning Path

大型語言模型如何運作

Learning Path

Related articles

大型語言模型如何運作

Learning Path

Related articles