What is Tokenization Attacks?

How tokenizer behavior creates exploitable gaps between human-readable text and model-internal representations, enabling filter bypass and payload obfuscation.

What is Attention Exploitation?

How the self-attention mechanism in transformers can be leveraged to steer model behavior, hijack information routing, and bypass safety instructions.

What is Embedding Manipulation?

Techniques for attacking the embedding layer of LLMs, including adversarial perturbations, embedding inversion, and semantic space manipulation.

What is Logit Bias Exploitation?

How API logit bias parameters can be abused to force specific token generation, bypass safety alignment, suppress refusal tokens, and extract model behavior through systematic probing.

What is Sampling Parameter Attacks?

How manipulation of temperature, top-p, top-k, frequency penalties, and seed parameters can degrade safety alignment, enable reproducibility attacks, and bypass content filtering.

What is KV Cache & Prompt Caching Attacks?

How KV cache poisoning, prefix caching exploitation, cache timing side channels, and multi-tenant isolation failures create attack vectors in LLM serving infrastructure.

What is Activation Manipulation & Safety Bypass?

How identifying and suppressing safety-critical activations, refusal direction vectors, and activation steering techniques can bypass safety alignment with near-100% success rates, including the IRIS technique from NAACL 2025.

大型語言模型內部與利用原語

入門2 分鐘閱讀更新於 2026-03-12

從安全研究員視角出發的大型語言模型架構概覽，涵蓋建立可利用攻擊面的關鍵元件。

llm transformers internals exploit-primitives architecture

大型語言模型建構於 transformer 架構——一種將文字視為符元序列處理、並以注意力機制決定資訊在符元間流動方式的神經網路設計。對 AI 紅隊員而言，理解這些內部原理不是可有可無，而是每一種利用技術所賴以建立的基礎。

為何內部原理對紅隊演練重要

傳統滲透測試人員會研讀作業系統內部、記憶體配置與協定規格；AI 紅隊員在大型語言模型架構上需要同等深度的理解。Transformer 管線的每一個元件——分詞、嵌入、注意力、前饋層與輸出生成——都會引入不同的攻擊面。

Transformer 管線

在高層次上，每一個大型語言模型都會透過下列階段處理輸入：

分詞 ——原始文字被以 BPE 或 SentencePiece 等演算法切成子詞符元。這是分詞攻擊作用的地方。
嵌入 ——符元被對應到高維向量。嵌入操控鎖定的就是這一層。
注意力層 ——自注意力機制在符元位置之間路由資訊。注意力利用就是利用模型如何對輸入的不同部分給予優先權。
前饋網路 ——每一層包含儲存已學得關聯的密集網路。
輸出投影 ——隱藏狀態被投影為詞彙表的 logits，再抽樣產生文字。

Input text → Tokenizer → Embeddings → [Attention + FFN] × N layers → Logits → Output tokens

與安全相關的關鍵特性

特性	說明	利用相關性
缺乏權限分離	系統提示詞與使用者輸入共用同一符元流	在架構上即容許提示詞注入
統計式處理	所有決策皆為機率式而非規則式	給定足夠最佳化即可繞過安全過濾器
上下文視窗限制	模型僅能關注固定數量的符元	導致注意力稀釋與上下文填塞攻擊
自迴歸生成	每個符元皆依賴於先前所有符元	載荷擺放位置會影響後續所有生成

您將學到什麼

本節涵蓋四大核心領域：

分詞攻擊 ——人類文字與模型符元之間的邊界如何產生可利用的落差
注意力利用 ——利用注意力機制來引導模型行為
嵌入操控 ——攻擊模型用來表徵意義的向量空間

每個主題都建構在此處的基礎之上，複雜度逐步提升。若您剛接觸大型語言模型安全研究，請從分詞攻擊開始。

參考文獻

Vaswani et al., "Attention Is All You Need" (2017) ——原始的 transformer 架構論文
Elhage et al., "A Mathematical Framework for Transformer Circuits" (2021) ——注意力頭的機制可解釋性
Carlini et al., "Are aligned neural networks adversarially aligned?" (2023) ——為何安全對齊在架構層級如此脆弱
Wei et al., "Jailbroken: How Does LLM Safety Training Fail?" (2023) ——為安全訓練的架構失敗模式分類

Knowledge Check

為何在以 transformer 為基礎的大型語言模型中，提示詞注入在架構上是可能的？

大型語言模型內部與利用原語

入門2 分鐘閱讀更新於 2026-03-12

從安全研究員視角出發的大型語言模型架構概覽，涵蓋建立可利用攻擊面的關鍵元件。

llm transformers internals exploit-primitives architecture

為何內部原理對紅隊演練重要

Transformer 管線

在高層次上，每一個大型語言模型都會透過下列階段處理輸入：

分詞 ——原始文字被以 BPE 或 SentencePiece 等演算法切成子詞符元。這是分詞攻擊作用的地方。
嵌入 ——符元被對應到高維向量。嵌入操控鎖定的就是這一層。
注意力層 ——自注意力機制在符元位置之間路由資訊。注意力利用就是利用模型如何對輸入的不同部分給予優先權。
前饋網路 ——每一層包含儲存已學得關聯的密集網路。
輸出投影 ——隱藏狀態被投影為詞彙表的 logits，再抽樣產生文字。

Input text → Tokenizer → Embeddings → [Attention + FFN] × N layers → Logits → Output tokens

與安全相關的關鍵特性

特性	說明	利用相關性
缺乏權限分離	系統提示詞與使用者輸入共用同一符元流	在架構上即容許提示詞注入
統計式處理	所有決策皆為機率式而非規則式	給定足夠最佳化即可繞過安全過濾器
上下文視窗限制	模型僅能關注固定數量的符元	導致注意力稀釋與上下文填塞攻擊
自迴歸生成	每個符元皆依賴於先前所有符元	載荷擺放位置會影響後續所有生成

您將學到什麼

本節涵蓋四大核心領域：

分詞攻擊 ——人類文字與模型符元之間的邊界如何產生可利用的落差
注意力利用 ——利用注意力機制來引導模型行為
嵌入操控 ——攻擊模型用來表徵意義的向量空間

每個主題都建構在此處的基礎之上，複雜度逐步提升。若您剛接觸大型語言模型安全研究，請從分詞攻擊開始。

參考文獻

Vaswani et al., "Attention Is All You Need" (2017) ——原始的 transformer 架構論文
Elhage et al., "A Mathematical Framework for Transformer Circuits" (2021) ——注意力頭的機制可解釋性
Carlini et al., "Are aligned neural networks adversarially aligned?" (2023) ——為何安全對齊在架構層級如此脆弱
Wei et al., "Jailbroken: How Does LLM Safety Training Fail?" (2023) ——為安全訓練的架構失敗模式分類

Knowledge Check

為何在以 transformer 為基礎的大型語言模型中，提示詞注入在架構上是可能的？

大型語言模型內部與利用原語

為何內部原理對紅隊演練重要

Transformer 管線

與安全相關的關鍵特性

您將學到什麼

相關主題

參考文獻

學習路徑

大型語言模型內部與利用原語

為何內部原理對紅隊演練重要

Transformer 管線

與安全相關的關鍵特性

您將學到什麼

相關主題

參考文獻

學習路徑

大型語言模型內部與利用原語

學習路徑

相關文章

大型語言模型內部與利用原語

學習路徑

相關文章