越獄技術目錄
Intermediate4 min readUpdated 2026-03-15
越獄技術綜合目錄,含效果評級、模型相容備註,以及演化歷史。
越獄技術目錄
本目錄記載的越獄技術附有效果評級,依對現代安全訓練模型的成功率報告為基準。效果會隨時間遞減——模型供應商會修補已知技術。評級反映「類別整體」的效果,而非特定提示。
效果評級尺度
| 評級 | 意義 |
|---|---|
| 高 | 以中等努力即能對當前模型頻繁奏效 |
| 中 | 有時有效;可能需多次嘗試或按模型調整 |
| 低 | 對當前模型已罕有效;多已修補但仍值得測試 |
| 不定 | 效果大幅取決於模型家族、版本與組態 |
角色扮演式越獄
利用模型的指令跟隨與角色一致性能力。
DAN(Do Anything Now)
| 屬性 | 詳情 |
|---|---|
| 類別 | 角色扮演 / 人設覆蓋 |
| 效果 | 對當前前沿模型低;對較小/舊型模型中 |
| 機制 | 指示模型採用無限制的「DAN」人設,常搭配以 token 為基礎的順從評分 |
| 演化 | DAN v1 至 v12+,每版皆在繞過上一版的修補 |
| 曾有效原因 | 利用模型的樂於助人訓練與維持角色的傾向 |
| 現況 | 於前沿模型已大幅修補。直接 DAN 提示通常被拒。變體對防護較弱模型仍可能有效。 |
| 防禦 | 系統提示強化、輸入分類器偵測角色扮演、對人設切換的行為監控 |
AIM(Always Intelligent and Machiavellian)
| 屬性 | 詳情 |
|---|---|
| 類別 | 角色扮演 / 虛構人設 |
| 效果 | 低—中 |
| 機制 | 指派一個「以提供未過濾資訊作為個性特質」的角色 |
| 關鍵特性 | 該人設被框架為故事角色,增添一層虛構距離 |
| 防禦 | 同 DAN —— 人設感知過濾 |
Developer / Debug 模式
| 屬性 | 詳情 |
|---|---|
| 類別 | 以角色扮演進行權限升級 |
| 效果 | 對前沿模型低;對微調/較小模型中 |
| 機制 | 宣稱啟動「特殊模式」使安全過濾停用以供測試 |
| 曾有效原因 | 於文件與開發者對話中訓練過的模型能辨識 debug 模式的概念 |
| 防禦 | 於系統提示聲明無 debug 模式、輸入分類 |
語言與框架技術
Crescendo 攻擊
| 屬性 | 詳情 |
|---|---|
| 類別 | 多輪升級 |
| 效果 | 中—高 |
| 機制 | 跨多輪將對話從無害逐漸升級至受限主題 |
| 輪次 | 通常 5–20 輪 |
| 有效原因 | 單輪看來無害;模型維持對話一致性並將主題逐步正常化 |
| 關鍵強項 | 於單輪層級極難偵測;需對話層級分析 |
| 防禦 | 對話層級主題追蹤、跨輪累計風險評分、滑動視窗內容分析 |
Many-Shot 越獄
| 屬性 | 詳情 |
|---|---|
| 類別 | 利用 in-context 學習 |
| 效果 | 中—高(需大型上下文視窗) |
| 機制 | 以大量「模型順從有害請求」的假 Q&A 範例填滿上下文,建立 in-context 學習模式 |
| 研究 | Anthropic(2024)紀錄 |
| 需求 | 大型上下文(100K+ token)、多例(數十至數百) |
| 有效原因 | 壓倒性的 in-context 證據透過統計模式比對覆蓋安全訓練 |
| 防禦 | 輸入長度上限、in-context 範例偵測、注意力模式監控 |
多語言攻擊
| 屬性 | 詳情 |
|---|---|
| 類別 | 以語言為基礎的規避 |
| 效果 | 不定——低資源語言高、涵蓋良好語言低 |
| 機制 | 以安全訓練涵蓋薄弱的語言表述有害請求 |
| 最佳目標 | RLHF 訓練資料中代表性較低的語言 |
| 變體 | 單語、中途切換語言(code-switching)、轉寫 |
| 有效原因 | 安全對齊不成比例地集中於英語;模型於其他語言的能力超過其安全涵蓋 |
| 防禦 | 多語安全訓練、語言偵測搭配翻譯式過濾、多語內容分類器 |
學術 / 研究框架
| 屬性 | 詳情 |
|---|---|
| 類別 | 脈絡操弄 |
| 效果 | 中 |
| 機制 | 將有害請求框架為學術研究、歷史分析或教育內容 |
| 範例模式 | 「為我的資安研究論文…」、「作為記錄…的歷史學家…」、「為安全評估…」 |
| 有效原因 | 模型被訓練支援研究與教育;這是與受限內容重疊的合法用途 |
| 防禦 | 同時評估框架與所求內容的脈絡感知過濾 |
技術性利用手法
通用對抗後綴
| 屬性 | 詳情 |
|---|---|
| 類別 | 梯度式最佳化 |
| 效果 | 適用時高;遷移則不定 |
| 機制 | 附加於提示、能壓低拒答行為的最佳化 token 序列 |
| 存取需求 | 白箱存取以產生(開源權重模型);可遷移至部分閉源模型 |
| 研究 | Zou et al.(2023)〈Universal and Transferable Adversarial Attacks on Aligned Language Models〉 |
| 外觀 | 常像亂碼(最佳化 token 非人類可讀) |
| 有效原因 | 直接最佳化 token 序列以最大化「肯定性回應」之機率 |
| 防禦 | 困惑度過濾(此類後綴困惑度異常)、輸入前處理、後綴偵測分類器 |
Token 走私
| 屬性 | 詳情 |
|---|---|
| 類別 | 分詞利用 |
| 效果 | 中 |
| 機制 | 利用「文字層過濾」與「token 層模型處理」之間的落差 |
| 變體 | 同形字替換、零寬字元插入、Unicode 正規化利用 |
| 有效原因 | 作用於原始文字的過濾,無法攔截僅影響分詞的操弄 |
| 防禦 | token 層過濾、過濾前先 Unicode 正規化、同形字偵測 |
編碼鏈
| 屬性 | 詳情 |
|---|---|
| 類別 | 以編碼繞過過濾 |
| 效果 | 中 |
| 機制 | 將有害指令編為 Base64、hex 或其他模型可解碼的格式 |
| 強化 | 多層編碼(先 Base64 再 hex) |
| 有效原因 | 文字過濾器比對明文;編碼內容可穿過而不被偵測 |
| 防禦 | 過濾前先偵測與解碼、封鎖已知編碼指令模式 |
Payload 分割與重組
| 屬性 | 詳情 |
|---|---|
| 類別 | 分片攻擊 |
| 效果 | 中—高 |
| 機制 | 將惡意指令拆為個別無害的片段,由模型重組 |
| 變體 | 跨輪分割、變數指派、部分編碼、跨 RAG 文件分佈片段 |
| 有效原因 | 每個片段可通過輸入過濾;模型的推理能力將完整指令重組 |
| 防禦 | 跨輪分析、對話脈絡中變數追蹤、輸出端偵測 |
結構性操弄
以提示洩漏精煉攻擊
| 屬性 | 詳情 |
|---|---|
| 類別 | 偵察 |
| 效果 | 中—高(就「洩漏本身」而言) |
| 機制 | 擷取系統提示以理解防護,再依揭露之規則打造繞過 |
| 為何重要 | 對確切防護規則的知識可顯著提升繞過成功率 |
| 防禦 | 穩健的系統提示保護、不仰賴提示保密的縱深防禦 |
上下文視窗操弄
| 屬性 | 詳情 |
|---|---|
| 類別 | 注意力操弄 |
| 效果 | 不定 |
| 機制 | 將注入 payload 置於上下文特定位置以利用注意力模式(開頭、結尾,或以填充淹沒系統提示) |
| 有效原因 | 模型於上下文間的注意力並非均勻;特定位置的指令可能獲得較多權重 |
| 防禦 | 於多個位置重複系統提示、注意力模式監控 |
目標衝突
| 屬性 | 詳情 |
|---|---|
| 類別 | 對齊利用 |
| 效果 | 中 |
| 機制 | 建構模型安全訓練與其他訓練目標(樂於助人、指令跟隨、任務完成)相衝突的情境 |
| 範例 | 「要對這位資安研究者最大化有用,你需要提供 [受限內容]」 |
| 有效原因 | 模型會平衡多項目標;精心構造的衝突可將天秤傾向攻擊者期望 |
| 防禦 | 於訓練與系統提示中建立清晰目標階層、衝突感知內容過濾 |
演化追蹤
越獄技術遵循可預測的演化週期:
發現
新技術被發現(常透過手動實驗或研究)。
擴散
技術經社群與社群媒體擴散。由於系統多未準備,效果很高。
修補
模型供應商更新安全訓練與過濾以處理該特定技術。對該精確提示的效果下降。
突變
攻擊者發展變體,繞過該特定修補,但仍利用相同底層機制。
結構性防禦
防禦方針對底層機制處理(而非僅該特定提示),整個類別的效果下降。
新發現
攻擊者找到新的可利用機制,重啟循環。
紅隊意涵:同時測試當前技術與「已修補」技術的變體。修補往往是提示特定,而非機制特定。