擴展 AI 安全詞彙表（參考）

Beginner2 min readUpdated 2026-03-13

AI 紅隊術語的完整詞彙表，涵蓋攻擊技術、防禦機制、模型內部與評估方法論。

glossary reference terminology definitions

A

對抗性範例（Adversarial Example） — 專門打造以使機器學習模型做出錯誤預測的輸入，通常對良性輸入只有最小的人類可察覺修改。

對抗性後綴（Adversarial Suffix） — 附加到提示詞的符元序列，利用基於梯度的最佳化來繞過安全訓練。見：GCG 攻擊。

代理（Agent） — 能透過呼叫工具、讀寫檔案或與 API 互動在世界中採取動作的 AI 系統，通常使用大型語言模型作為推理引擎。

對齊（Alignment） — 訓練 AI 系統以依人類價值與意圖行事的過程，通常透過 RLHF、DPO 或 Constitutional AI。

ASR（攻擊成功率） — 成功繞過模型安全機制的攻擊嘗試百分比。AI 紅隊演練中的主要量化指標。

B-C

盲注入（Blind Injection） — 攻擊者無法看見模型直接輸出的提示詞注入，需要側通道技術確認成功。

CART（持續自動化紅隊演練） — 持續產生並測試對 AI 系統之對抗性輸入的自動化管線。

思維鏈（Chain-of-Thought, CoT） — 一種提示技術，模型顯示其推理步驟。可透過思維注入被利用。

Constitutional AI — 模型對一組原則評估自己的輸出、然後相應修正的對齊方法。

上下文視窗（Context Window） — 模型能在單次推論呼叫中處理的最大符元數。填充攻擊在大上下文中稀釋安全指令。

D-F

資料外洩（Data Exfiltration） — 從 AI 系統萃取機密資訊，包含訓練資料、系統提示詞或使用者資料。

縱深防禦（Defense in Depth） — 使用多個獨立防禦層的安全策略，使一層的入侵不會入侵系統。

直接注入（Direct Injection） — 由使用者在其對 AI 系統的輸入中直接遞送的提示詞注入。

DPO（直接偏好最佳化） — 從偏好資料直接最佳化模型而不訓練獨立獎勵模型的對齊技術。

嵌入向量（Embedding） — 文字（或其他資料）在連續空間中的密集向量表示，其中語意相似性對應到幾何鄰近。

少範例越獄（Few-Shot Jailbreak） — 提供模型配合受限請求範例的越獄，以鼓勵類似行為。

微調（Fine-Tuning） — 在特定資料集上對預訓練模型進行額外訓練，可被利用以移除安全訓練或植入後門。

G-I

GCG（Greedy Coordinate Gradient） — 透過對模型安全行為的基於梯度最佳化產生對抗性後綴的演算法。

護欄（Guardrail） — 過濾、修改或封鎖 AI 輸入/輸出以防止有害行為的安全機制。

幻覺（Hallucination） — 模型產生有信心但事實上錯誤資訊的現象。

間接注入（Indirect Injection） — 透過模型處理的資料（檢索文件、工具輸出、使用者個人資料）而非直接使用者輸入遞送的提示詞注入。

J-M

越獄（Jailbreak） — 使 AI 模型繞過其安全訓練並產生其被訓練為拒絕內容的技術。

知識投毒（Knowledge Poisoning） — 將惡意內容注入 RAG 系統的知識庫以操控未來回應。

LLM 裁判（LLM Judge） — 使用一個大型語言模型評估另一個的輸出，常同時作為防禦機制與評估指標。

MCP（模型上下文協議） — 連接 AI 模型與外部工具和資料來源的協議。工具伺服器安全是關鍵攻擊面。

成員推論（Membership Inference） — 決定特定資料點是否被用於模型訓練資料的攻擊。

模型萃取（Model Extraction） — 透過系統性查詢模型並在輸入/輸出對上訓練替代模型來複製模型功能。

P-R

PAIR（提示詞自動迭代精煉） — 攻擊者 LLM 根據目標模型回應迭代精煉提示詞的自動化越獄方法。

PII 萃取 — 萃取模型從其訓練資料記住的個人可識別資訊。

提示詞注入（Prompt Injection） — 使用者提供的輸入覆蓋或修改 AI 系統指令預期行為的攻擊。

RAG（檢索增強生成） — 大型語言模型回應以從外部知識庫檢索的資訊增強的模式。

紅隊演練（Red Teaming） — 對 AI 系統進行對抗性測試以識別漏洞、安全失敗與安全弱點。

獎勵駭入（Reward Hacking） — 利用獎勵模型中的漏洞以在沒有預期行為下達成高獎勵。

RLHF（基於人類回饋的強化學習） — 從人類偏好訓練獎勵模型並用它微調基礎模型的對齊技術。

S-Z

安全訓練（Safety Training） — 訓練模型拒絕有害請求的過程，通常透過 RLHF、DPO 或 Constitutional AI。

系統提示詞（System Prompt） — 給予大型語言模型的初始指令，定義其行為、人格與約束。常是萃取攻擊的目標。

TAP（附修剪的攻擊樹） — 探索攻擊變體樹、修剪不成功分支的自動化越獄方法。

符元走私（Token Smuggling） — 使用編碼、Unicode 或分詞技巧繞過輸入過濾器，同時保留攻擊 payload 的語意意義。

可轉移攻擊（Transferable Attack） — 針對一個模型打造的對抗性輸入，也對不同模型有效。

VLM（視覺-語言模型） — 同時處理圖片與文字的模型，透過視覺輸入建立額外的攻擊面。

Knowledge Check

「直接注入」與「間接注入」的關鍵差異是什麼？

參考文獻

NIST AI 100-2e2025 - NIST (2025) - 對抗性機器學習：攻擊與緩解的分類與術語
MITRE ATLAS Terminology - MITRE Corporation (2024) - 標準化對抗性 ML 術語
OWASP AI Exchange - OWASP (2024) - 社群維護的 AI 安全術語與定義

擴展 AI 安全詞彙表（參考）

Beginner2 min readUpdated 2026-03-13

AI 紅隊術語的完整詞彙表，涵蓋攻擊技術、防禦機制、模型內部與評估方法論。

glossary reference terminology definitions

A

對抗性範例（Adversarial Example） — 專門打造以使機器學習模型做出錯誤預測的輸入，通常對良性輸入只有最小的人類可察覺修改。

對抗性後綴（Adversarial Suffix） — 附加到提示詞的符元序列，利用基於梯度的最佳化來繞過安全訓練。見：GCG 攻擊。

代理（Agent） — 能透過呼叫工具、讀寫檔案或與 API 互動在世界中採取動作的 AI 系統，通常使用大型語言模型作為推理引擎。

對齊（Alignment） — 訓練 AI 系統以依人類價值與意圖行事的過程，通常透過 RLHF、DPO 或 Constitutional AI。

ASR（攻擊成功率） — 成功繞過模型安全機制的攻擊嘗試百分比。AI 紅隊演練中的主要量化指標。

B-C

盲注入（Blind Injection） — 攻擊者無法看見模型直接輸出的提示詞注入，需要側通道技術確認成功。

CART（持續自動化紅隊演練） — 持續產生並測試對 AI 系統之對抗性輸入的自動化管線。

思維鏈（Chain-of-Thought, CoT） — 一種提示技術，模型顯示其推理步驟。可透過思維注入被利用。

Constitutional AI — 模型對一組原則評估自己的輸出、然後相應修正的對齊方法。

上下文視窗（Context Window） — 模型能在單次推論呼叫中處理的最大符元數。填充攻擊在大上下文中稀釋安全指令。

D-F

資料外洩（Data Exfiltration） — 從 AI 系統萃取機密資訊，包含訓練資料、系統提示詞或使用者資料。

縱深防禦（Defense in Depth） — 使用多個獨立防禦層的安全策略，使一層的入侵不會入侵系統。

直接注入（Direct Injection） — 由使用者在其對 AI 系統的輸入中直接遞送的提示詞注入。

DPO（直接偏好最佳化） — 從偏好資料直接最佳化模型而不訓練獨立獎勵模型的對齊技術。

嵌入向量（Embedding） — 文字（或其他資料）在連續空間中的密集向量表示，其中語意相似性對應到幾何鄰近。

少範例越獄（Few-Shot Jailbreak） — 提供模型配合受限請求範例的越獄，以鼓勵類似行為。

微調（Fine-Tuning） — 在特定資料集上對預訓練模型進行額外訓練，可被利用以移除安全訓練或植入後門。

G-I

GCG（Greedy Coordinate Gradient） — 透過對模型安全行為的基於梯度最佳化產生對抗性後綴的演算法。

護欄（Guardrail） — 過濾、修改或封鎖 AI 輸入/輸出以防止有害行為的安全機制。

幻覺（Hallucination） — 模型產生有信心但事實上錯誤資訊的現象。

間接注入（Indirect Injection） — 透過模型處理的資料（檢索文件、工具輸出、使用者個人資料）而非直接使用者輸入遞送的提示詞注入。

J-M

越獄（Jailbreak） — 使 AI 模型繞過其安全訓練並產生其被訓練為拒絕內容的技術。

知識投毒（Knowledge Poisoning） — 將惡意內容注入 RAG 系統的知識庫以操控未來回應。

LLM 裁判（LLM Judge） — 使用一個大型語言模型評估另一個的輸出，常同時作為防禦機制與評估指標。

MCP（模型上下文協議） — 連接 AI 模型與外部工具和資料來源的協議。工具伺服器安全是關鍵攻擊面。

成員推論（Membership Inference） — 決定特定資料點是否被用於模型訓練資料的攻擊。

模型萃取（Model Extraction） — 透過系統性查詢模型並在輸入/輸出對上訓練替代模型來複製模型功能。

P-R

PAIR（提示詞自動迭代精煉） — 攻擊者 LLM 根據目標模型回應迭代精煉提示詞的自動化越獄方法。

PII 萃取 — 萃取模型從其訓練資料記住的個人可識別資訊。

提示詞注入（Prompt Injection） — 使用者提供的輸入覆蓋或修改 AI 系統指令預期行為的攻擊。

RAG（檢索增強生成） — 大型語言模型回應以從外部知識庫檢索的資訊增強的模式。

紅隊演練（Red Teaming） — 對 AI 系統進行對抗性測試以識別漏洞、安全失敗與安全弱點。

獎勵駭入（Reward Hacking） — 利用獎勵模型中的漏洞以在沒有預期行為下達成高獎勵。

RLHF（基於人類回饋的強化學習） — 從人類偏好訓練獎勵模型並用它微調基礎模型的對齊技術。

S-Z

安全訓練（Safety Training） — 訓練模型拒絕有害請求的過程，通常透過 RLHF、DPO 或 Constitutional AI。

系統提示詞（System Prompt） — 給予大型語言模型的初始指令，定義其行為、人格與約束。常是萃取攻擊的目標。

TAP（附修剪的攻擊樹） — 探索攻擊變體樹、修剪不成功分支的自動化越獄方法。

符元走私（Token Smuggling） — 使用編碼、Unicode 或分詞技巧繞過輸入過濾器，同時保留攻擊 payload 的語意意義。

可轉移攻擊（Transferable Attack） — 針對一個模型打造的對抗性輸入，也對不同模型有效。

VLM（視覺-語言模型） — 同時處理圖片與文字的模型，透過視覺輸入建立額外的攻擊面。

Knowledge Check

「直接注入」與「間接注入」的關鍵差異是什麼？

參考文獻

NIST AI 100-2e2025 - NIST (2025) - 對抗性機器學習：攻擊與緩解的分類與術語
MITRE ATLAS Terminology - MITRE Corporation (2024) - 標準化對抗性 ML 術語
OWASP AI Exchange - OWASP (2024) - 社群維護的 AI 安全術語與定義

擴展 AI 安全詞彙表（參考）

A

B-C

D-F

G-I

J-M

P-R

S-Z

相關主題

參考文獻

擴展 AI 安全詞彙表（參考）

A

B-C

D-F

G-I

J-M

P-R

S-Z

相關主題

參考文獻

擴展 AI 安全詞彙表（參考）

Related articles

擴展 AI 安全詞彙表（參考）

Related articles