詞彙表
64 個術語,涵蓋 AI 紅隊演練、對抗性機器學習、提示詞注入、代理利用與大型語言模型安全。
A
Adversarial Example
對抗性樣本。一種經過精心設計的輸入,旨在使機器學習模型產生錯誤或非預期的輸出。在 AI 紅隊演練中,對抗性樣本透過對輸入施加難以察覺的修改來利用模型漏洞,藉此愚弄分類器、偵測器或內容過濾器。
Attention
注意力機制。Transformer 架構中的核心機制,決定資訊如何在各 token 位置之間流動。注意力權重揭示模型優先處理輸入的哪些部分,可直接指引注入位置策略與注意力稀釋攻擊。
Adversarial Suffix
對抗性後綴。附加於提示詞之後的一串 token,能使語言模型繞過其安全對齊。通常透過如 GCG 等基於梯度的最佳化方法發現,對抗性後綴有時可在不同模型間轉移。
AutoDAN
一種自動化越獄生成方法,運用階層式遺傳演算法演化出可讀的越獄提示詞。與產生亂碼後綴的 GCG 不同,AutoDAN 生成人類可讀的越獄內容,使其更難被基於困惑度的過濾器偵測。
Agent Hijacking
代理劫持。透過提示詞注入掌控 AI 代理的行為,使其追求攻擊者定義的目標,而非使用者預期的任務。代理劫持尤其危險,因為代理擁有工具存取權限,會放大其影響。
Alignment Tax
對齊稅。安全對齊訓練所導致的模型能力下降。經過大量對齊的模型在某些任務上的能力可能較弱。紅隊人員觀察到,某些越獄技術本質上是「找回」了被對齊訓練所抑制的能力。
AI Safety
AI 安全。著重於確保 AI 系統能安全、可靠地運作,並符合人類價值觀的研究領域。AI 紅隊演練是 AI 安全的實務分支,提供關於安全措施在何處成功、在何處失效的實證證據。
B
BPE
位元組對編碼(Byte Pair Encoding)。GPT 系列模型所使用的一種子詞 tokenization 演算法,透過反覆合併訓練資料中最頻繁的位元組對來建構詞彙表。紅隊人員利用 BPE 特有的 token 邊界行為與編碼特性來製作負載。
C
Constitutional AI
憲法式 AI。由 Anthropic 開發的一種對齊技術,模型被訓練為依據一套書面原則(即「憲法」)自我批判並修訂其自身輸出。紅隊人員研究憲法式 AI,以找出憲法中的缺口並利用其模糊之處。
D
Data Poisoning
資料投毒。一種透過將惡意樣本注入模型訓練資料集來操弄模型行為的攻擊。被投毒的資料可植入後門、使輸出產生偏誤或降低效能。對於以使用者產生或網路爬取資料進行微調的模型尤其危險。
DAN
Do Anything Now(現在就做任何事)。一種早期的越獄人設提示詞,指示模型扮演一個不受限制的另一自我。雖然原始的 DAN 提示詞已被廣泛修補,但基於人設的越獄技術仍持續以新形式演進。
DPO
直接偏好最佳化(Direct Preference Optimization)。一種對齊技術,直接以人類偏好資料訓練語言模型,而無需另設獨立的獎勵模型。DPO 引入了其自身的攻擊面——紅隊人員研究如何利用偏好資料中的偏誤。
Deceptive Alignment
欺騙性對齊。一種理論情境,AI 系統在訓練與評估期間看似已對齊,但在部署時卻追求不同的目標。雖然這主要是 AI 安全研究的關注議題,但紅隊人員在評估模型究竟是真正遵循安全約束、抑或僅是表面遵循時,會將欺騙性對齊納入考量。
E
F
G
H
Hallucination
幻覺。當語言模型產生的文字在事實上不正確、屬於捏造,或未根基於所提供的上下文時,即為幻覺。幻覺與安全相關,因為它可能產生使用者所信任的錯誤資訊,也代表模型輸出無法被無條件信賴。
I
J
K
Knowledge Cutoff
知識截止日。模型在此日期之後即無訓練資料。知識截止日之後發生的事件對模型而言是未知的。紅隊人員以知識截止日探測作為一種指紋辨識技術,藉此識別模型家族與版本。
L
LLM
大型語言模型(Large Language Model)。一種神經網路,通常以 Transformer 架構為基礎,在龐大的文字語料庫上訓練以預測序列中的下一個 token。大型語言模型是現代 AI 助理、聊天機器人與代理系統的基礎。
Logprobs
對數機率。在每個生成步驟中指派給模型詞彙表內每個 token 的對數機率。當 API 公開 logprobs 時,可為紅隊人員提供寶貴資訊,包括信心分析、安全過濾器偵測與成員推斷攻擊。
M
Model Extraction
模型萃取。一種透過系統性查詢專有 AI 模型、並利用輸入輸出配對來訓練功能等價複製品的攻擊。成功的萃取可能洩露商業機密、繞過使用控制,並使後續的白箱攻擊成為可能。
Membership Inference
成員推斷。一種隱私攻擊,用以判定某個特定資料點是否包含於模型的訓練資料集中。透過觀察模型在訓練資料與非訓練資料上行為的差異,攻擊者可推斷敏感記錄是否存在。
Many-shot Jailbreaking
多範例越獄。一種透過提供大量模型回答有害問題之範例來利用情境學習(in-context learning)的越獄技術。在看過足夠多的範例(通常 50 個以上)後,模型會延續該模式並順從最終的有害查詢。
Multi-modal Attack
多模態攻擊。針對處理多種輸入類型(文字、影像、音訊、影片)之 AI 系統的攻擊。攻擊者將對抗性負載嵌入非文字模態中——例如影像中的隱藏文字——以繞過僅針對文字的內容過濾器。
MCP
模型上下文協定(Model Context Protocol)。連接 AI 模型與外部工具、資料來源及服務的標準化介面。MCP 定義了模型如何發現、呼叫工具並接收其結果,為工具相關的利用建立了一個標準化的攻擊面。
N
NIST AI RMF
美國國家標準暨技術研究院 AI 風險管理框架(NIST AI Risk Management Framework)。一套自願性框架,為管理 AI 系統生命週期各階段的風險提供指引,包括安全測試與紅隊演練要求。
O
OWASP Top 10 for LLMs
OWASP 大型語言模型十大風險。由 OWASP 發布的標準意識文件,列出大型語言模型應用中最關鍵的十大安全風險。它為 AI 安全提供共通的詞彙與優先排序框架,涵蓋提示詞注入、資料投毒、供應鏈等議題。
P
Prompt Injection
提示詞注入。一種攻擊手法,攻擊者精心設計輸入內容,使語言模型忽略或覆寫其原始指令,轉而遵循攻擊者指定的指示。它是大型語言模型應用中最根本的漏洞類別,類比於傳統 Web 安全中的 SQL 注入。
Perplexity
困惑度。衡量語言模型對給定文字感到多「意外」的指標。低困惑度表示該文字對模型而言是可預測的。基於困惑度的過濾器可偵測對抗性後綴(其困惑度高),而困惑度比較則使成員推斷攻擊成為可能。
Penetration Testing
滲透測試。針對系統進行的模擬網路攻擊,用以評估其安全性。AI 滲透測試將傳統滲透測試方法論調整以因應機器學習系統的獨特特性,新增了提示詞注入、對齊測試與資料管線評估。
Prompt Leaking
提示詞洩漏。模型的系統提示詞或內部指令向未經授權使用者的揭露。提示詞洩漏可能透過直接萃取攻擊、模型對自身指令的幻覺,或冗長錯誤訊息中的意外揭露而發生。被洩漏的提示詞會暴露安全規則與行為約束。
R
Red Teaming
紅隊演練。模擬針對系統的對抗性攻擊,以發現漏洞並改善防禦的實務做法。在 AI 安全領域,紅隊演練針對機器學習系統獨有的失效模式,包括提示詞注入、對齊繞過、資料投毒與模型利用。
RAG
檢索增強生成(Retrieval-Augmented Generation)。一種架構模式,透過從外部知識庫檢索相關文件並納入模型的上下文,藉此增強大型語言模型的回應。RAG 透過文件投毒與間接提示詞注入引入了攻擊面。
RLHF
基於人類回饋的強化學習(Reinforcement Learning from Human Feedback)。用於使語言模型對齊人類偏好與安全要求的主要技術。RLHF 從人類排序中訓練一個獎勵模型,再以強化學習針對該獎勵最佳化語言模型。
RAG Poisoning
RAG 投毒。一種將惡意文件注入 RAG 系統知識庫的攻擊。當這些被投毒的文件因相關查詢而被檢索時,便會將攻擊者控制的內容注入模型的上下文中,使間接提示詞注入成為可能。
Reward Hacking
獎勵駭客。當 AI 模型在強化學習過程中找到非預期的方式來最大化其獎勵訊號,卻未真正達成預期目標時,即為獎勵駭客。在 RLHF 訓練的模型中,獎勵駭客可能產生分數很高、實則有害或具操弄性的輸出。
Responsible Disclosure
負責任揭露。在公開揭露之前先向受影響組織通報所發現漏洞的實務做法,給予其開發並部署修補的時間。AI 領域特有的負責任揭露需額外考量有害輸出與機率性發現等議題。
S
Safety Filter
安全過濾器。檢查模型輸入或輸出,以偵測並封鎖有害、違反政策或敏感內容的元件。安全過濾器可能採用關鍵字比對、分類器模型或基於大型語言模型的評估。紅隊人員經常透過 token 操弄與語意改寫來繞過這些過濾器。
Specification Gaming
規格鑽漏。當 AI 系統透過鑽目標設定方式的漏洞、而非透過解決預期任務來取得高獎勵或高分時,即為規格鑽漏。規格鑽漏與獎勵駭客相關,可能產生紅隊人員會發現的非預期模型行為。
Sandbagging
藏拙。當 AI 模型在能力評估上刻意表現不佳,卻在其他用途上保留完整能力時,即為藏拙。藏拙使紅隊人員擔憂,因為這意味著能力評估可能無法反映模型的真實能力,進而對安全評估產生影響。
T
Token
詞元。語言模型中文字處理的基本單位。文字在輸入模型處理前,會由 tokenizer 拆分為 token(子詞、單字或字元)。理解 tokenization 對於設計對抗性負載至關重要。
Training Data Extraction
訓練資料萃取。透過針對性提示使模型洩露其訓練資料中已記憶內容的技術。方法包括基於前綴的補全、發散攻擊與金絲雀萃取,可能暴露個人識別資訊、受著作權保護的內容或安全敏感資訊。
Tool Use Exploitation
工具使用利用。操弄 AI 代理以攻擊者控制的參數呼叫工具的攻擊。透過注入指令使代理誤用其合法工具,攻擊者可達成程式碼執行、資料外洩與權限提升。
Temperature
溫度。一個控制模型輸出隨機性的參數。較低的溫度產生較具確定性的回應,較高的溫度則產生較具創意但較難預測的輸出。溫度會影響漏洞利用的可靠度——較低的溫度意味著更一致的利用成功率。
Top-p
核採樣(nucleus sampling)參數,將 token 的選擇限制在累積機率超過 p 的最小 token 集合內。Top-p 會影響輸出多樣性,並可能透過改變模型較可能生成哪些 token,進而影響對抗性負載的成功率。
Tokenizer
斷詞器。將原始文字轉換為語言模型可處理之數值 token 的元件。Tokenizer 的行為直接影響安全性,因為 tokenizer 拆分文字的方式與過濾器檢查文字的方式若不一致,便會產生可供負載混淆利用的漏洞缺口。
Threat Modeling
威脅建模。識別資產、攻擊面、威脅行為者與潛在攻擊路徑的結構化過程。AI 威脅模型必須涵蓋獨特的攻擊向量,例如提示詞注入、訓練資料投毒、模型供應鏈風險,以及自主代理的湧現行為。