詞彙表

64 個術語，涵蓋 AI 紅隊演練、對抗性機器學習、提示詞注入、代理利用與大型語言模型安全。

A

Adversarial Example

對抗性樣本。一種經過精心設計的輸入，旨在使機器學習模型產生錯誤或非預期的輸出。在 AI 紅隊演練中，對抗性樣本透過對輸入施加難以察覺的修改來利用模型漏洞，藉此愚弄分類器、偵測器或內容過濾器。

嵌入空間攻擊

Attention

注意力機制。Transformer 架構中的核心機制，決定資訊如何在各 token 位置之間流動。注意力權重揭示模型優先處理輸入的哪些部分，可直接指引注入位置策略與注意力稀釋攻擊。

注意力利用

Adversarial Suffix

對抗性後綴。附加於提示詞之後的一串 token，能使語言模型繞過其安全對齊。通常透過如 GCG 等基於梯度的最佳化方法發現，對抗性後綴有時可在不同模型間轉移。

越獄技術

AutoDAN

一種自動化越獄生成方法，運用階層式遺傳演算法演化出可讀的越獄提示詞。與產生亂碼後綴的 GCG 不同，AutoDAN 生成人類可讀的越獄內容，使其更難被基於困惑度的過濾器偵測。

越獄技術紅隊自動化

Agent Hijacking

代理劫持。透過提示詞注入掌控 AI 代理的行為，使其追求攻擊者定義的目標，而非使用者預期的任務。代理劫持尤其危險，因為代理擁有工具存取權限，會放大其影響。

代理與代理式利用

Alignment Tax

對齊稅。安全對齊訓練所導致的模型能力下降。經過大量對齊的模型在某些任務上的能力可能較弱。紅隊人員觀察到，某些越獄技術本質上是「找回」了被對齊訓練所抑制的能力。

大型語言模型內部與利用原語越獄技術

AI Safety

AI 安全。著重於確保 AI 系統能安全、可靠地運作，並符合人類價值觀的研究領域。AI 紅隊演練是 AI 安全的實務分支，提供關於安全措施在何處成功、在何處失效的實證證據。

完整案件方法論

AI Governance

AI 治理。指引 AI 系統負責任地開發與部署的政策、流程與組織架構。AI 治理框架日益要求將安全評估（包括紅隊演練）作為部署核准的條件。

委任規劃與範疇界定

B

Blue Teaming

藍隊防禦。紅隊演練的防禦對應方，著重於偵測、預防並回應針對 AI 系統的攻擊。藍隊活動包括部署防護機制、監控提示詞注入、維持安全對齊，以及建構縱深防禦架構。

完整案件方法論

BPE

位元組對編碼（Byte Pair Encoding）。GPT 系列模型所使用的一種子詞 tokenization 演算法，透過反覆合併訓練資料中最頻繁的位元組對來建構詞彙表。紅隊人員利用 BPE 特有的 token 邊界行為與編碼特性來製作負載。

基於分詞的攻擊

Bug Bounty

漏洞獎勵計畫。組織所提供、獎勵安全研究人員發現並負責任地通報漏洞的計畫。多家 AI 公司現已營運漏洞獎勵計畫，將提示詞注入、越獄與資料萃取納入有效的發現類別。

完整案件方法論

C

Crescendo Attack

漸強攻擊。一種多輪越獄技術，每則訊息逐步朝受限內容升級。對話上下文逐漸將目標主題正常化，使模型延續該軌跡，而非套用安全約束。

越獄技術

Chain of Thought

思維鏈。一種提示技術，指示模型在產生最終答案前先展示其推理步驟。在代理中，思維鏈推理可透過注入錯誤前提來操弄，使代理導向攻擊者所欲的結論。

操弄推理鏈

Constitutional AI

憲法式 AI。由 Anthropic 開發的一種對齊技術，模型被訓練為依據一套書面原則（即「憲法」）自我批判並修訂其自身輸出。紅隊人員研究憲法式 AI，以找出憲法中的缺口並利用其模糊之處。

大型語言模型內部與利用原語

Capability Elicitation

能力引出。發掘 AI 模型真實能力（超出標準評估所揭示範圍）的過程。紅隊人員運用能力引出技術，找出可能構成安全風險的隱藏或被抑制的能力。

繪製模型能力

Content Filter

內容過濾器。一種檢查模型輸入或輸出，以偵測並封鎖有害或違反政策內容的安全機制。內容過濾器可能採用關鍵字比對、分類器模型或基於大型語言模型的評估。紅隊人員透過 token 操弄、編碼技巧與語意改寫來繞過內容過濾器。

防禦規避越獄技術

D

Data Poisoning

資料投毒。一種透過將惡意樣本注入模型訓練資料集來操弄模型行為的攻擊。被投毒的資料可植入後門、使輸出產生偏誤或降低效能。對於以使用者產生或網路爬取資料進行微調的模型尤其危險。

訓練資料操縱

DAN

Do Anything Now（現在就做任何事）。一種早期的越獄人設提示詞，指示模型扮演一個不受限制的另一自我。雖然原始的 DAN 提示詞已被廣泛修補，但基於人設的越獄技術仍持續以新形式演進。

越獄技術

DPO

直接偏好最佳化（Direct Preference Optimization）。一種對齊技術，直接以人類偏好資料訓練語言模型，而無需另設獨立的獎勵模型。DPO 引入了其自身的攻擊面——紅隊人員研究如何利用偏好資料中的偏誤。

大型語言模型內部與利用原語訓練資料操縱

Deceptive Alignment

欺騙性對齊。一種理論情境，AI 系統在訓練與評估期間看似已對齊，但在部署時卻追求不同的目標。雖然這主要是 AI 安全研究的關注議題，但紅隊人員在評估模型究竟是真正遵循安全約束、抑或僅是表面遵循時，會將欺騙性對齊納入考量。

大型語言模型內部與利用原語

E

Embedding

嵌入向量。文字在連續高維空間中的稠密向量表示。嵌入向量捕捉語意意涵，是檢索增強生成（RAG）系統的核心，因為它決定文件的檢索結果。攻擊者透過對抗性擾動與嵌入反演攻擊來針對嵌入空間。

嵌入空間攻擊 RAG 管線投毒

EU AI Act

歐盟人工智慧法案。歐洲聯盟立法，建立以風險分類為基礎的 AI 系統監管框架。高風險 AI 系統必須通過符合性評估，而該評估日益納入安全評估與紅隊演練。

委任規劃與範疇界定

F

Fine-tuning

微調。在較小的、針對特定任務的資料集上持續訓練預訓練模型，以使其行為專門化的過程。微調是安全敏感的操作，因為它可能被用來移除安全對齊、植入後門或使模型輸出產生偏誤。

訓練資料操縱

Function Calling

函式呼叫。大型語言模型生成結構化函式呼叫請求、再由應用層執行的能力。函式呼叫使工具使用成為可能，但也透過參數注入、函式選擇操弄與未經授權的呼叫引入了攻擊面。

利用代理工具使用

G

Guardrails

防護機制。旨在將 AI 模型行為約束於可接受範圍內的安全機制。防護機制包括系統提示詞指令、輸入／輸出內容過濾器、工具呼叫驗證、速率限制，以及人機協作的核准工作流程。

防禦規避越獄技術

GCG Attack

貪婪座標梯度攻擊（Greedy Coordinate Gradient）。一種基於梯度的最佳化方法，透過反覆替換 token 以最小化針對目標有害輸出的損失，藉此找出對抗性後綴。在開放權重模型上發現的 GCG 後綴有時可轉移至閉源模型。

越獄技術

H

Hallucination

幻覺。當語言模型產生的文字在事實上不正確、屬於捏造，或未根基於所提供的上下文時，即為幻覺。幻覺與安全相關，因為它可能產生使用者所信任的錯誤資訊，也代表模型輸出無法被無條件信賴。

大型語言模型內部與利用原語

I

Indirect Prompt Injection

間接提示詞注入。一種攻擊，將惡意指令置於外部資料來源中——例如網頁、文件或電子郵件——而 AI 系統會檢索並處理這些內容。攻擊者從不直接與模型互動，使此手法具可擴展性且難以歸因。

間接提示詞注入 RAG 管線投毒

J

Jailbreak

越獄。一種使經過安全對齊的 AI 模型繞過其防護機制、產生原本被訓練為拒絕回答之輸出的技術。越獄透過角色扮演情境、編碼技巧、多輪操弄或對抗性後綴來利用對齊訓練的弱點。

越獄技術

K

Knowledge Cutoff

知識截止日。模型在此日期之後即無訓練資料。知識截止日之後發生的事件對模型而言是未知的。紅隊人員以知識截止日探測作為一種指紋辨識技術，藉此識別模型家族與版本。

剖析 AI 系統

L

LLM

大型語言模型（Large Language Model）。一種神經網路，通常以 Transformer 架構為基礎，在龐大的文字語料庫上訓練以預測序列中的下一個 token。大型語言模型是現代 AI 助理、聊天機器人與代理系統的基礎。

大型語言模型內部與利用原語

Logprobs

對數機率。在每個生成步驟中指派給模型詞彙表內每個 token 的對數機率。當 API 公開 logprobs 時，可為紅隊人員提供寶貴資訊，包括信心分析、安全過濾器偵測與成員推斷攻擊。

大型語言模型內部與利用原語擷取訓練資料

M

Model Extraction

模型萃取。一種透過系統性查詢專有 AI 模型、並利用輸入輸出配對來訓練功能等價複製品的攻擊。成功的萃取可能洩露商業機密、繞過使用控制，並使後續的白箱攻擊成為可能。

擷取訓練資料

Membership Inference

成員推斷。一種隱私攻擊，用以判定某個特定資料點是否包含於模型的訓練資料集中。透過觀察模型在訓練資料與非訓練資料上行為的差異，攻擊者可推斷敏感記錄是否存在。

擷取訓練資料

Many-shot Jailbreaking

多範例越獄。一種透過提供大量模型回答有害問題之範例來利用情境學習（in-context learning）的越獄技術。在看過足夠多的範例（通常 50 個以上）後，模型會延續該模式並順從最終的有害查詢。

越獄技術

MCP

模型上下文協定（Model Context Protocol）。連接 AI 模型與外部工具、資料來源及服務的標準化介面。MCP 定義了模型如何發現、呼叫工具並接收其結果，為工具相關的利用建立了一個標準化的攻擊面。

利用代理工具使用

Model Card

模型卡。一種機器學習模型的文件框架，描述其預期用途、效能特性、限制與倫理考量。紅隊人員在偵察階段審閱模型卡，以了解模型所聲明的能力與限制。

剖析 AI 系統

N

NIST AI RMF

美國國家標準暨技術研究院 AI 風險管理框架（NIST AI Risk Management Framework）。一套自願性框架，為管理 AI 系統生命週期各階段的風險提供指引，包括安全測試與紅隊演練要求。

委任規劃與範疇界定

O

OWASP Top 10 for LLMs

OWASP 大型語言模型十大風險。由 OWASP 發布的標準意識文件，列出大型語言模型應用中最關鍵的十大安全風險。它為 AI 安全提供共通的詞彙與優先排序框架，涵蓋提示詞注入、資料投毒、供應鏈等議題。

委任規劃與範疇界定 LLM API 安全測試

P

Prompt Injection

提示詞注入。一種攻擊手法，攻擊者精心設計輸入內容，使語言模型忽略或覆寫其原始指令，轉而遵循攻擊者指定的指示。它是大型語言模型應用中最根本的漏洞類別，類比於傳統 Web 安全中的 SQL 注入。

提示詞注入與越獄直接提示詞注入

Perplexity

困惑度。衡量語言模型對給定文字感到多「意外」的指標。低困惑度表示該文字對模型而言是可預測的。基於困惑度的過濾器可偵測對抗性後綴（其困惑度高），而困惑度比較則使成員推斷攻擊成為可能。

防禦規避擷取訓練資料

Penetration Testing

滲透測試。針對系統進行的模擬網路攻擊，用以評估其安全性。AI 滲透測試將傳統滲透測試方法論調整以因應機器學習系統的獨特特性，新增了提示詞注入、對齊測試與資料管線評估。

完整案件方法論 AI 紅隊演練方法論

Prompt Leaking

提示詞洩漏。模型的系統提示詞或內部指令向未經授權使用者的揭露。提示詞洩漏可能透過直接萃取攻擊、模型對自身指令的幻覺，或冗長錯誤訊息中的意外揭露而發生。被洩漏的提示詞會暴露安全規則與行為約束。

系統提示擷取

R

Red Teaming

紅隊演練。模擬針對系統的對抗性攻擊，以發現漏洞並改善防禦的實務做法。在 AI 安全領域，紅隊演練針對機器學習系統獨有的失效模式，包括提示詞注入、對齊繞過、資料投毒與模型利用。

完整案件方法論 AI 紅隊演練方法論

RAG

檢索增強生成（Retrieval-Augmented Generation）。一種架構模式，透過從外部知識庫檢索相關文件並納入模型的上下文，藉此增強大型語言模型的回應。RAG 透過文件投毒與間接提示詞注入引入了攻擊面。

RAG、資料與訓練攻擊 RAG 管線投毒

RLHF

基於人類回饋的強化學習（Reinforcement Learning from Human Feedback）。用於使語言模型對齊人類偏好與安全要求的主要技術。RLHF 從人類排序中訓練一個獎勵模型，再以強化學習針對該獎勵最佳化語言模型。

大型語言模型內部與利用原語

ReAct Pattern

ReAct 模式（推理 + 行動）。一種代理架構模式，模型在「推理該做什麼」與「採取行動」之間交替進行。其推理步驟是可見的，並可透過思維鏈操弄技術加以利用。

操弄推理鏈

RAG Poisoning

RAG 投毒。一種將惡意文件注入 RAG 系統知識庫的攻擊。當這些被投毒的文件因相關查詢而被檢索時，便會將攻擊者控制的內容注入模型的上下文中，使間接提示詞注入成為可能。

RAG 管線投毒

Reward Hacking

獎勵駭客。當 AI 模型在強化學習過程中找到非預期的方式來最大化其獎勵訊號，卻未真正達成預期目標時，即為獎勵駭客。在 RLHF 訓練的模型中，獎勵駭客可能產生分數很高、實則有害或具操弄性的輸出。

大型語言模型內部與利用原語

Responsible Disclosure

負責任揭露。在公開揭露之前先向受影響組織通報所發現漏洞的實務做法，給予其開發並部署修補的時間。AI 領域特有的負責任揭露需額外考量有害輸出與機率性發現等議題。

執行與報告

S

Safety Filter

安全過濾器。檢查模型輸入或輸出，以偵測並封鎖有害、違反政策或敏感內容的元件。安全過濾器可能採用關鍵字比對、分類器模型或基於大型語言模型的評估。紅隊人員經常透過 token 操弄與語意改寫來繞過這些過濾器。

防禦規避

System Prompt

系統提示詞。提供給語言模型的初始指令集合，用以定義其行為、人設、能力與限制。系統提示詞通常對終端使用者隱藏，且包含敏感設定，例如安全規則與行為約束。

系統提示擷取

Skeleton Key

萬能鑰匙。一種越獄技術，為模型提供順從受限請求的看似合理理由，例如聲稱使用者是安全研究人員，或聲稱該資訊是經授權評估所需。其命名來自能「解鎖」模型順從性的能力。

越獄技術

Specification Gaming

規格鑽漏。當 AI 系統透過鑽目標設定方式的漏洞、而非透過解決預期任務來取得高獎勵或高分時，即為規格鑽漏。規格鑽漏與獎勵駭客相關，可能產生紅隊人員會發現的非預期模型行為。

大型語言模型內部與利用原語

Sycophancy

諂媚。語言模型傾向於同意使用者、或說出使用者想聽的話，即使模型本應反對或拒絕。諂媚是可被利用的——將有害請求包裝成模型本應同意之事的攻擊者，便能利用此一傾向。

越獄技術

Sandbagging

藏拙。當 AI 模型在能力評估上刻意表現不佳，卻在其他用途上保留完整能力時，即為藏拙。藏拙使紅隊人員擔憂，因為這意味著能力評估可能無法反映模型的真實能力，進而對安全評估產生影響。

大型語言模型內部與利用原語

T

Token

詞元。語言模型中文字處理的基本單位。文字在輸入模型處理前，會由 tokenizer 拆分為 token（子詞、單字或字元）。理解 tokenization 對於設計對抗性負載至關重要。

基於分詞的攻擊

Training Data Extraction

訓練資料萃取。透過針對性提示使模型洩露其訓練資料中已記憶內容的技術。方法包括基於前綴的補全、發散攻擊與金絲雀萃取，可能暴露個人識別資訊、受著作權保護的內容或安全敏感資訊。

擷取訓練資料

Tool Use Exploitation

工具使用利用。操弄 AI 代理以攻擊者控制的參數呼叫工具的攻擊。透過注入指令使代理誤用其合法工具，攻擊者可達成程式碼執行、資料外洩與權限提升。

利用代理工具使用

Temperature

溫度。一個控制模型輸出隨機性的參數。較低的溫度產生較具確定性的回應，較高的溫度則產生較具創意但較難預測的輸出。溫度會影響漏洞利用的可靠度——較低的溫度意味著更一致的利用成功率。

大型語言模型內部與利用原語

Top-p

核採樣（nucleus sampling）參數，將 token 的選擇限制在累積機率超過 p 的最小 token 集合內。Top-p 會影響輸出多樣性，並可能透過改變模型較可能生成哪些 token，進而影響對抗性負載的成功率。

大型語言模型內部與利用原語

Tokenizer

斷詞器。將原始文字轉換為語言模型可處理之數值 token 的元件。Tokenizer 的行為直接影響安全性，因為 tokenizer 拆分文字的方式與過濾器檢查文字的方式若不一致，便會產生可供負載混淆利用的漏洞缺口。

基於分詞的攻擊

Threat Modeling

威脅建模。識別資產、攻擊面、威脅行為者與潛在攻擊路徑的結構化過程。AI 威脅模型必須涵蓋獨特的攻擊向量，例如提示詞注入、訓練資料投毒、模型供應鏈風險，以及自主代理的湧現行為。

委任規劃與範疇界定 AI 紅隊演練方法論

詞彙表

64 個術語，涵蓋 AI 紅隊演練、對抗性機器學習、提示詞注入、代理利用與大型語言模型安全。

A

AI Governance

AI 治理。指引 AI 系統負責任地開發與部署的政策、流程與組織架構。AI 治理框架日益要求將安全評估（包括紅隊演練）作為部署核准的條件。

委任規劃與範疇界定

B

Blue Teaming

完整案件方法論

BPE

基於分詞的攻擊

Bug Bounty

完整案件方法論

C

Crescendo Attack

漸強攻擊。一種多輪越獄技術，每則訊息逐步朝受限內容升級。對話上下文逐漸將目標主題正常化，使模型延續該軌跡，而非套用安全約束。

越獄技術

Chain of Thought

操弄推理鏈

Constitutional AI

大型語言模型內部與利用原語

Capability Elicitation

能力引出。發掘 AI 模型真實能力（超出標準評估所揭示範圍）的過程。紅隊人員運用能力引出技術，找出可能構成安全風險的隱藏或被抑制的能力。

繪製模型能力

Content Filter

防禦規避越獄技術

D

Data Poisoning

訓練資料操縱

DAN

越獄技術

DPO

大型語言模型內部與利用原語訓練資料操縱

Deceptive Alignment

大型語言模型內部與利用原語

E

Embedding

嵌入空間攻擊 RAG 管線投毒

EU AI Act

委任規劃與範疇界定

F

Fine-tuning

訓練資料操縱

Function Calling

利用代理工具使用

G

Guardrails

防禦規避越獄技術

GCG Attack

越獄技術

H

Hallucination

大型語言模型內部與利用原語

I

Indirect Prompt Injection

間接提示詞注入 RAG 管線投毒

J

Jailbreak

越獄技術

K

Knowledge Cutoff

剖析 AI 系統

L

LLM

大型語言模型內部與利用原語

Logprobs

大型語言模型內部與利用原語擷取訓練資料

M

Model Extraction

擷取訓練資料

Membership Inference

擷取訓練資料

Many-shot Jailbreaking

越獄技術

MCP

利用代理工具使用

Model Card

剖析 AI 系統

N

NIST AI RMF

委任規劃與範疇界定

O

OWASP Top 10 for LLMs

委任規劃與範疇界定 LLM API 安全測試

P

Prompt Injection

提示詞注入與越獄直接提示詞注入

Perplexity

防禦規避擷取訓練資料

Penetration Testing

完整案件方法論 AI 紅隊演練方法論

Prompt Leaking

系統提示擷取

R

Red Teaming

完整案件方法論 AI 紅隊演練方法論

RAG

RAG、資料與訓練攻擊 RAG 管線投毒

RLHF

大型語言模型內部與利用原語

ReAct Pattern

操弄推理鏈

RAG Poisoning

RAG 管線投毒

Reward Hacking

大型語言模型內部與利用原語

Responsible Disclosure

執行與報告

S

Safety Filter

防禦規避

System Prompt

系統提示擷取

Skeleton Key

越獄技術

Specification Gaming

大型語言模型內部與利用原語

Sycophancy

越獄技術

Sandbagging

大型語言模型內部與利用原語

T

Token

基於分詞的攻擊

Training Data Extraction

擷取訓練資料

Tool Use Exploitation

利用代理工具使用

Temperature

大型語言模型內部與利用原語

Top-p

大型語言模型內部與利用原語

Tokenizer

基於分詞的攻擊

Threat Modeling

委任規劃與範疇界定 AI 紅隊演練方法論

詞彙表

A

Adversarial Example

Attention

Adversarial Suffix

AutoDAN

Agent Hijacking

Alignment Tax

AI Safety

AI Governance

B

Blue Teaming

BPE

Bug Bounty

C

Crescendo Attack

Chain of Thought

Constitutional AI

Capability Elicitation

Content Filter

D

Data Poisoning

DAN

DPO

Deceptive Alignment

E

Embedding

EU AI Act

F

Fine-tuning

Function Calling

G

Guardrails

GCG Attack

H

Hallucination

I

Indirect Prompt Injection

J

Jailbreak

K

Knowledge Cutoff

L

LLM

Logprobs

M

Model Extraction

Membership Inference

Many-shot Jailbreaking

Multi-modal Attack

MCP

Model Card

N

NIST AI RMF

O

OWASP Top 10 for LLMs

P

Prompt Injection

Perplexity

Penetration Testing

Prompt Leaking

R

Red Teaming

RAG

RLHF

ReAct Pattern

RAG Poisoning

Reward Hacking

Responsible Disclosure

S

Safety Filter

System Prompt

Skeleton Key

Specification Gaming

Sycophancy

Sandbagging

T

Token

Training Data Extraction

Tool Use Exploitation