大型語言模型內部與利用原語
從安全研究員視角出發的大型語言模型架構概覽,涵蓋建立可利用攻擊面的關鍵元件。
大型語言模型建構於 transformer 架構——一種將文字視為符元序列處理、並以注意力機制決定資訊在符元間流動方式的神經網路設計。對 AI 紅隊員而言,理解這些內部原理不是可有可無,而是每一種利用技術所賴以建立的基礎。
為何內部原理對紅隊演練重要
傳統滲透測試人員會研讀作業系統內部、記憶體配置與協定規格;AI 紅隊員在大型語言模型架構上需要同等深度的理解。Transformer 管線的每一個元件——分詞、嵌入、注意力、前饋層與輸出生成——都會引入不同的攻擊面。
Transformer 管線
在高層次上,每一個大型語言模型都會透過下列階段處理輸入:
- 分詞 ——原始文字被以 BPE 或 SentencePiece 等演算法切成 子詞符元。這是分詞攻擊作用的地方。
- 嵌入 ——符元被對應到高維向量。嵌入操控鎖定的就是這一層。
- 注意力層 ——自注意力機制在符元位置之間路由資訊。注意力利用就是利用模型如何對輸入的不同部分給予優先權。
- 前饋網路 ——每一層包含儲存已學得關聯的密集網路。
- 輸出投影 ——隱藏狀態被投影為詞彙表的 logits,再抽樣產生文字。
Input text → Tokenizer → Embeddings → [Attention + FFN] × N layers → Logits → Output tokens
與安全相關的關鍵特性
| 特性 | 說明 | 利用相關性 |
|---|---|---|
| 缺乏權限分離 | 系統提示詞與使用者輸入共用同一符元流 | 在架構上即容許提示詞注入 |
| 統計式處理 | 所有決策皆為機率式而非規則式 | 給定足夠最佳化即可繞過安全過濾器 |
| 上下文視窗限制 | 模型僅能關注固定數量的符元 | 導致注意力稀釋與上下文填塞攻擊 |
| 自迴歸生成 | 每個符元皆依賴於先前所有符元 | 載荷擺放位置會影響後續所有生成 |
您將學到什麼
本節涵蓋四大核心領域:
每個主題都建構在此處的基礎之上,複雜度逐步提升。若您剛接觸大型語言模型安全研究,請從分詞攻擊開始。
相關主題
- 大型語言模型如何運作 ——基礎 transformer 架構與訓練管線
- 對齊繞過技術 ——於內部層級利用安全訓練
- 提示詞注入基礎 ——將內部知識應用於實務注入攻擊
- 攻擊開發 ——從架構理解建立可靠的利用
- 嵌入利用(進階) ——深入探討嵌入層攻擊
參考文獻
- Vaswani et al., "Attention Is All You Need" (2017) ——原始的 transformer 架構論文
- Elhage et al., "A Mathematical Framework for Transformer Circuits" (2021) ——注意力頭的機制可解釋性
- Carlini et al., "Are aligned neural networks adversarially aligned?" (2023) ——為何安全對齊在架構層級如此脆弱
- Wei et al., "Jailbroken: How Does LLM Safety Training Fail?" (2023) ——為安全訓練的架構失敗模式分類
為何在以 transformer 為基礎的大型語言模型中,提示詞注入在架構上是可能的?