越獄技術目錄

Intermediate4 min readUpdated 2026-03-15

越獄技術綜合目錄，含效果評級、模型相容備註，以及演化歷史。

jailbreaks catalog techniques effectiveness reference

越獄技術目錄

本目錄記載的越獄技術附有效果評級，依對現代安全訓練模型的成功率報告為基準。效果會隨時間遞減——模型供應商會修補已知技術。評級反映「類別整體」的效果，而非特定提示。

效果評級尺度

評級	意義
高	以中等努力即能對當前模型頻繁奏效
中	有時有效；可能需多次嘗試或按模型調整
低	對當前模型已罕有效；多已修補但仍值得測試
不定	效果大幅取決於模型家族、版本與組態

角色扮演式越獄

利用模型的指令跟隨與角色一致性能力。

DAN（Do Anything Now）

屬性	詳情
類別	角色扮演 / 人設覆蓋
效果	對當前前沿模型低；對較小/舊型模型中
機制	指示模型採用無限制的「DAN」人設，常搭配以 token 為基礎的順從評分
演化	DAN v1 至 v12+，每版皆在繞過上一版的修補
曾有效原因	利用模型的樂於助人訓練與維持角色的傾向
現況	於前沿模型已大幅修補。直接 DAN 提示通常被拒。變體對防護較弱模型仍可能有效。
防禦	系統提示強化、輸入分類器偵測角色扮演、對人設切換的行為監控

AIM（Always Intelligent and Machiavellian）

屬性	詳情
類別	角色扮演 / 虛構人設
效果	低—中
機制	指派一個「以提供未過濾資訊作為個性特質」的角色
關鍵特性	該人設被框架為故事角色，增添一層虛構距離
防禦	同 DAN —— 人設感知過濾

Developer / Debug 模式

屬性	詳情
類別	以角色扮演進行權限升級
效果	對前沿模型低；對微調/較小模型中
機制	宣稱啟動「特殊模式」使安全過濾停用以供測試
曾有效原因	於文件與開發者對話中訓練過的模型能辨識 debug 模式的概念
防禦	於系統提示聲明無 debug 模式、輸入分類

語言與框架技術

Crescendo 攻擊

屬性	詳情
類別	多輪升級
效果	中—高
機制	跨多輪將對話從無害逐漸升級至受限主題
輪次	通常 5–20 輪
有效原因	單輪看來無害；模型維持對話一致性並將主題逐步正常化
關鍵強項	於單輪層級極難偵測；需對話層級分析
防禦	對話層級主題追蹤、跨輪累計風險評分、滑動視窗內容分析

Many-Shot 越獄

屬性	詳情
類別	利用 in-context 學習
效果	中—高（需大型上下文視窗）
機制	以大量「模型順從有害請求」的假 Q&A 範例填滿上下文，建立 in-context 學習模式
研究	Anthropic（2024）紀錄
需求	大型上下文（100K+ token）、多例（數十至數百）
有效原因	壓倒性的 in-context 證據透過統計模式比對覆蓋安全訓練
防禦	輸入長度上限、in-context 範例偵測、注意力模式監控

多語言攻擊

屬性	詳情
類別	以語言為基礎的規避
效果	不定——低資源語言高、涵蓋良好語言低
機制	以安全訓練涵蓋薄弱的語言表述有害請求
最佳目標	RLHF 訓練資料中代表性較低的語言
變體	單語、中途切換語言（code-switching）、轉寫
有效原因	安全對齊不成比例地集中於英語；模型於其他語言的能力超過其安全涵蓋
防禦	多語安全訓練、語言偵測搭配翻譯式過濾、多語內容分類器

學術 / 研究框架

屬性	詳情
類別	脈絡操弄
效果	中
機制	將有害請求框架為學術研究、歷史分析或教育內容
範例模式	「為我的資安研究論文…」、「作為記錄…的歷史學家…」、「為安全評估…」
有效原因	模型被訓練支援研究與教育；這是與受限內容重疊的合法用途
防禦	同時評估框架與所求內容的脈絡感知過濾

技術性利用手法

通用對抗後綴

屬性	詳情
類別	梯度式最佳化
效果	適用時高；遷移則不定
機制	附加於提示、能壓低拒答行為的最佳化 token 序列
存取需求	白箱存取以產生（開源權重模型）；可遷移至部分閉源模型
研究	Zou et al.（2023）〈Universal and Transferable Adversarial Attacks on Aligned Language Models〉
外觀	常像亂碼（最佳化 token 非人類可讀）
有效原因	直接最佳化 token 序列以最大化「肯定性回應」之機率
防禦	困惑度過濾（此類後綴困惑度異常）、輸入前處理、後綴偵測分類器

Token 走私

屬性	詳情
類別	分詞利用
效果	中
機制	利用「文字層過濾」與「token 層模型處理」之間的落差
變體	同形字替換、零寬字元插入、Unicode 正規化利用
有效原因	作用於原始文字的過濾，無法攔截僅影響分詞的操弄
防禦	token 層過濾、過濾前先 Unicode 正規化、同形字偵測

編碼鏈

屬性	詳情
類別	以編碼繞過過濾
效果	中
機制	將有害指令編為 Base64、hex 或其他模型可解碼的格式
強化	多層編碼（先 Base64 再 hex）
有效原因	文字過濾器比對明文；編碼內容可穿過而不被偵測
防禦	過濾前先偵測與解碼、封鎖已知編碼指令模式

Payload 分割與重組

屬性	詳情
類別	分片攻擊
效果	中—高
機制	將惡意指令拆為個別無害的片段，由模型重組
變體	跨輪分割、變數指派、部分編碼、跨 RAG 文件分佈片段
有效原因	每個片段可通過輸入過濾；模型的推理能力將完整指令重組
防禦	跨輪分析、對話脈絡中變數追蹤、輸出端偵測

結構性操弄

以提示洩漏精煉攻擊

屬性	詳情
類別	偵察
效果	中—高（就「洩漏本身」而言）
機制	擷取系統提示以理解防護，再依揭露之規則打造繞過
為何重要	對確切防護規則的知識可顯著提升繞過成功率
防禦	穩健的系統提示保護、不仰賴提示保密的縱深防禦

上下文視窗操弄

屬性	詳情
類別	注意力操弄
效果	不定
機制	將注入 payload 置於上下文特定位置以利用注意力模式（開頭、結尾，或以填充淹沒系統提示）
有效原因	模型於上下文間的注意力並非均勻；特定位置的指令可能獲得較多權重
防禦	於多個位置重複系統提示、注意力模式監控

目標衝突

屬性	詳情
類別	對齊利用
效果	中
機制	建構模型安全訓練與其他訓練目標（樂於助人、指令跟隨、任務完成）相衝突的情境
範例	「要對這位資安研究者最大化有用，你需要提供 [受限內容]」
有效原因	模型會平衡多項目標；精心構造的衝突可將天秤傾向攻擊者期望
防禦	於訓練與系統提示中建立清晰目標階層、衝突感知內容過濾

演化追蹤

越獄技術遵循可預測的演化週期：

發現
新技術被發現（常透過手動實驗或研究）。
擴散
技術經社群與社群媒體擴散。由於系統多未準備，效果很高。
修補
模型供應商更新安全訓練與過濾以處理該特定技術。對該精確提示的效果下降。
突變
攻擊者發展變體，繞過該特定修補，但仍利用相同底層機制。
結構性防禦
防禦方針對底層機制處理（而非僅該特定提示），整個類別的效果下降。
新發現
攻擊者找到新的可利用機制，重啟循環。

紅隊意涵：同時測試當前技術與「已修補」技術的變體。修補往往是提示特定，而非機制特定。

越獄技術目錄

Intermediate4 min readUpdated 2026-03-15

越獄技術綜合目錄，含效果評級、模型相容備註，以及演化歷史。

jailbreaks catalog techniques effectiveness reference

越獄技術目錄

效果評級尺度

評級	意義
高	以中等努力即能對當前模型頻繁奏效
中	有時有效；可能需多次嘗試或按模型調整
低	對當前模型已罕有效；多已修補但仍值得測試
不定	效果大幅取決於模型家族、版本與組態

角色扮演式越獄

利用模型的指令跟隨與角色一致性能力。

DAN（Do Anything Now）

屬性	詳情
類別	角色扮演 / 人設覆蓋
效果	對當前前沿模型低；對較小/舊型模型中
機制	指示模型採用無限制的「DAN」人設，常搭配以 token 為基礎的順從評分
演化	DAN v1 至 v12+，每版皆在繞過上一版的修補
曾有效原因	利用模型的樂於助人訓練與維持角色的傾向
現況	於前沿模型已大幅修補。直接 DAN 提示通常被拒。變體對防護較弱模型仍可能有效。
防禦	系統提示強化、輸入分類器偵測角色扮演、對人設切換的行為監控

AIM（Always Intelligent and Machiavellian）

屬性	詳情
類別	角色扮演 / 虛構人設
效果	低—中
機制	指派一個「以提供未過濾資訊作為個性特質」的角色
關鍵特性	該人設被框架為故事角色，增添一層虛構距離
防禦	同 DAN —— 人設感知過濾

Developer / Debug 模式

屬性	詳情
類別	以角色扮演進行權限升級
效果	對前沿模型低；對微調/較小模型中
機制	宣稱啟動「特殊模式」使安全過濾停用以供測試
曾有效原因	於文件與開發者對話中訓練過的模型能辨識 debug 模式的概念
防禦	於系統提示聲明無 debug 模式、輸入分類

語言與框架技術

Crescendo 攻擊

屬性	詳情
類別	多輪升級
效果	中—高
機制	跨多輪將對話從無害逐漸升級至受限主題
輪次	通常 5–20 輪
有效原因	單輪看來無害；模型維持對話一致性並將主題逐步正常化
關鍵強項	於單輪層級極難偵測；需對話層級分析
防禦	對話層級主題追蹤、跨輪累計風險評分、滑動視窗內容分析

Many-Shot 越獄

屬性	詳情
類別	利用 in-context 學習
效果	中—高（需大型上下文視窗）
機制	以大量「模型順從有害請求」的假 Q&A 範例填滿上下文，建立 in-context 學習模式
研究	Anthropic（2024）紀錄
需求	大型上下文（100K+ token）、多例（數十至數百）
有效原因	壓倒性的 in-context 證據透過統計模式比對覆蓋安全訓練
防禦	輸入長度上限、in-context 範例偵測、注意力模式監控

多語言攻擊

屬性	詳情
類別	以語言為基礎的規避
效果	不定——低資源語言高、涵蓋良好語言低
機制	以安全訓練涵蓋薄弱的語言表述有害請求
最佳目標	RLHF 訓練資料中代表性較低的語言
變體	單語、中途切換語言（code-switching）、轉寫
有效原因	安全對齊不成比例地集中於英語；模型於其他語言的能力超過其安全涵蓋
防禦	多語安全訓練、語言偵測搭配翻譯式過濾、多語內容分類器

學術 / 研究框架

屬性	詳情
類別	脈絡操弄
效果	中
機制	將有害請求框架為學術研究、歷史分析或教育內容
範例模式	「為我的資安研究論文…」、「作為記錄…的歷史學家…」、「為安全評估…」
有效原因	模型被訓練支援研究與教育；這是與受限內容重疊的合法用途
防禦	同時評估框架與所求內容的脈絡感知過濾

技術性利用手法

通用對抗後綴

屬性	詳情
類別	梯度式最佳化
效果	適用時高；遷移則不定
機制	附加於提示、能壓低拒答行為的最佳化 token 序列
存取需求	白箱存取以產生（開源權重模型）；可遷移至部分閉源模型
研究	Zou et al.（2023）〈Universal and Transferable Adversarial Attacks on Aligned Language Models〉
外觀	常像亂碼（最佳化 token 非人類可讀）
有效原因	直接最佳化 token 序列以最大化「肯定性回應」之機率
防禦	困惑度過濾（此類後綴困惑度異常）、輸入前處理、後綴偵測分類器

Token 走私

屬性	詳情
類別	分詞利用
效果	中
機制	利用「文字層過濾」與「token 層模型處理」之間的落差
變體	同形字替換、零寬字元插入、Unicode 正規化利用
有效原因	作用於原始文字的過濾，無法攔截僅影響分詞的操弄
防禦	token 層過濾、過濾前先 Unicode 正規化、同形字偵測

編碼鏈

屬性	詳情
類別	以編碼繞過過濾
效果	中
機制	將有害指令編為 Base64、hex 或其他模型可解碼的格式
強化	多層編碼（先 Base64 再 hex）
有效原因	文字過濾器比對明文；編碼內容可穿過而不被偵測
防禦	過濾前先偵測與解碼、封鎖已知編碼指令模式

Payload 分割與重組

屬性	詳情
類別	分片攻擊
效果	中—高
機制	將惡意指令拆為個別無害的片段，由模型重組
變體	跨輪分割、變數指派、部分編碼、跨 RAG 文件分佈片段
有效原因	每個片段可通過輸入過濾；模型的推理能力將完整指令重組
防禦	跨輪分析、對話脈絡中變數追蹤、輸出端偵測

結構性操弄

以提示洩漏精煉攻擊

屬性	詳情
類別	偵察
效果	中—高（就「洩漏本身」而言）
機制	擷取系統提示以理解防護，再依揭露之規則打造繞過
為何重要	對確切防護規則的知識可顯著提升繞過成功率
防禦	穩健的系統提示保護、不仰賴提示保密的縱深防禦

上下文視窗操弄

屬性	詳情
類別	注意力操弄
效果	不定
機制	將注入 payload 置於上下文特定位置以利用注意力模式（開頭、結尾，或以填充淹沒系統提示）
有效原因	模型於上下文間的注意力並非均勻；特定位置的指令可能獲得較多權重
防禦	於多個位置重複系統提示、注意力模式監控

目標衝突

屬性	詳情
類別	對齊利用
效果	中
機制	建構模型安全訓練與其他訓練目標（樂於助人、指令跟隨、任務完成）相衝突的情境
範例	「要對這位資安研究者最大化有用，你需要提供 [受限內容]」
有效原因	模型會平衡多項目標；精心構造的衝突可將天秤傾向攻擊者期望
防禦	於訓練與系統提示中建立清晰目標階層、衝突感知內容過濾

演化追蹤

越獄技術遵循可預測的演化週期：

發現
新技術被發現（常透過手動實驗或研究）。
擴散
技術經社群與社群媒體擴散。由於系統多未準備，效果很高。
修補
模型供應商更新安全訓練與過濾以處理該特定技術。對該精確提示的效果下降。
突變
攻擊者發展變體，繞過該特定修補，但仍利用相同底層機制。
結構性防禦
防禦方針對底層機制處理（而非僅該特定提示），整個類別的效果下降。
新發現
攻擊者找到新的可利用機制，重啟循環。

紅隊意涵：同時測試當前技術與「已修補」技術的變體。修補往往是提示特定，而非機制特定。

越獄技術目錄

發現

擴散

修補

突變

結構性防禦

新發現

Related articles

越獄技術目錄

發現

擴散

修補

突變

結構性防禦

新發現

Related articles