擴展 AI 安全詞彙表(參考)
AI 紅隊術語的完整詞彙表,涵蓋攻擊技術、防禦機制、模型內部與評估方法論。
A
對抗性範例(Adversarial Example) — 專門打造以使機器學習模型做出錯誤預測的輸入,通常對良性輸入只有最小的人類可察覺修改。
對抗性後綴(Adversarial Suffix) — 附加到提示詞的符元序列,利用基於梯度的最佳化來繞過安全訓練。見:GCG 攻擊。
代理(Agent) — 能透過呼叫工具、讀寫檔案或與 API 互動在世界中採取動作的 AI 系統,通常使用大型語言模型作為推理引擎。
對齊(Alignment) — 訓練 AI 系統以依人類價值與意圖行事的過程,通常透過 RLHF、DPO 或 Constitutional AI。
ASR(攻擊成功率) — 成功繞過模型安全機制的攻擊嘗試百分比。AI 紅隊演練中的主要量化指標。
B-C
盲注入(Blind Injection) — 攻擊者無法看見模型直接輸出的提示詞注入,需要側通道技術確認成功。
CART(持續自動化紅隊演練) — 持續產生並測試對 AI 系統之對抗性輸入的自動化管線。
思維鏈(Chain-of-Thought, CoT) — 一種提示技術,模型顯示其推理步驟。可透過思維注入被利用。
Constitutional AI — 模型對一組原則評估自己的輸出、然後相應修正的對齊方法。
上下文視窗(Context Window) — 模型能在單次推論呼叫中處理的最大符元數。填充攻擊在大上下文中稀釋安全指令。
D-F
資料外洩(Data Exfiltration) — 從 AI 系統萃取機密資訊,包含訓練資料、系統提示詞或使用者資料。
縱深防禦(Defense in Depth) — 使用多個獨立防禦層的安全策略,使一層的入侵不會入侵系統。
直接注入(Direct Injection) — 由使用者在其對 AI 系統的輸入中直接遞送的提示詞注入。
DPO(直接偏好最佳化) — 從偏好資料直接最佳化模型而不訓練獨立獎勵模型的對齊技術。
嵌入向量(Embedding) — 文字(或其他資料)在連續空間中的密集向量表示,其中語意相似性對應到幾何鄰近。
少範例越獄(Few-Shot Jailbreak) — 提供模型配合受限請求範例的越獄,以鼓勵類似行為。
微調(Fine-Tuning) — 在特定資料集上對預訓練模型進行額外訓練,可被利用以移除安全訓練或植入後門。
G-I
GCG(Greedy Coordinate Gradient) — 透過對模型安全行為的基於梯度最佳化產生對抗性後綴的演算法。
護欄(Guardrail) — 過濾、修改或封鎖 AI 輸入/輸出以防止有害行為的安全機制。
幻覺(Hallucination) — 模型產生有信心但事實上錯誤資訊的現象。
間接注入(Indirect Injection) — 透過模型處理的資料(檢索文件、工具輸出、使用者個人資料)而非直接使用者輸入遞送的提示詞注入。
J-M
越獄(Jailbreak) — 使 AI 模型繞過其安全訓練並產生其被訓練為拒絕內容的技術。
知識投毒(Knowledge Poisoning) — 將惡意內容注入 RAG 系統的知識庫以操控未來回應。
LLM 裁判(LLM Judge) — 使用一個大型語言模型評估另一個的輸出,常同時作為防禦機制與評估指標。
MCP(模型上下文協議) — 連接 AI 模型與外部工具和資料來源的協議。工具伺服器安全是關鍵攻擊面。
成員推論(Membership Inference) — 決定特定資料點是否被用於模型訓練資料的攻擊。
模型萃取(Model Extraction) — 透過系統性查詢模型並在輸入/輸出對上訓練替代模型來複製模型功能。
P-R
PAIR(提示詞自動迭代精煉) — 攻擊者 LLM 根據目標模型回應迭代精煉提示詞的自動化越獄方法。
PII 萃取 — 萃取模型從其訓練資料記住的個人可識別資訊。
提示詞注入(Prompt Injection) — 使用者提供的輸入覆蓋或修改 AI 系統指令預期行為的攻擊。
RAG(檢索增強生成) — 大型語言模型回應以從外部知識庫檢索的資訊增強的模式。
紅隊演練(Red Teaming) — 對 AI 系統進行對抗性測試以識別漏洞、安全失敗與安全弱點。
獎勵駭入(Reward Hacking) — 利用獎勵模型中的漏洞以在沒有預期行為下達成高獎勵。
RLHF(基於人類回饋的強化學習) — 從人類偏好訓練獎勵模型並用它微調基礎模型的對齊技術。
S-Z
安全訓練(Safety Training) — 訓練模型拒絕有害請求的過程,通常透過 RLHF、DPO 或 Constitutional AI。
系統提示詞(System Prompt) — 給予大型語言模型的初始指令,定義其行為、人格與約束。常是萃取攻擊的目標。
TAP(附修剪的攻擊樹) — 探索攻擊變體樹、修剪不成功分支的自動化越獄方法。
符元走私(Token Smuggling) — 使用編碼、Unicode 或分詞技巧繞過輸入過濾器,同時保留攻擊 payload 的語意意義。
可轉移攻擊(Transferable Attack) — 針對一個模型打造的對抗性輸入,也對不同模型有效。
VLM(視覺-語言模型) — 同時處理圖片與文字的模型,透過視覺輸入建立額外的攻擊面。
「直接注入」與「間接注入」的關鍵差異是什麼?
相關主題
- 基礎:大型語言模型如何運作 - 理解這些術語描述的系統
- AI 紅隊演練速查表 - 案件快速參考
- OWASP LLM Top 10 深入探討 - 標準化漏洞分類
- MITRE ATLAS 逐步演練 - 對抗性 ML 威脅框架
- 框架對應參考 - 跨框架術語對應
參考文獻
- NIST AI 100-2e2025 - NIST (2025) - 對抗性機器學習:攻擊與緩解的分類與術語
- MITRE ATLAS Terminology - MITRE Corporation (2024) - 標準化對抗性 ML 術語
- OWASP AI Exchange - OWASP (2024) - 社群維護的 AI 安全術語與定義