2026 年大型語言模型越獄：97% 成功率、自主攻擊，與失靈的軍備競賽

2026-03-25redteams.ai team3 分鐘閱讀

jailbreak llm-safety red-teaming reasoning-models DeepSeek-R1 JBFuzz ai-safety 2026-research

AI 安全社群有一個不願公開談論的問題：越獄攻擊幾乎每次都成功。

2026 年發表於 Nature Communications 的一項里程碑研究證明，大型推理模型——DeepSeek-R1、Gemini 2.5 Flash、Grok 3 Mini 與 Qwen3——能夠以 97.14% 的整體成功率 自主越獄其他 AI 模型。完全沒有人類撰寫提示詞。沒有手動迭代。只是一個 AI 系統性地擊敗另一個。

這不是漸進式的研究發現。它從根本上改變了 AI 安全的威脅模型。

最新技術現況：三大突破

1. 推理模型作為自主越獄代理

Hagendorff 等人發表於 Nature Communications 的論文（arxiv 2508.04039）是 2026 年最重要的越獄研究。以下是他們的做法：

設定：四個大型推理模型（LRM）獲得一個系統提示詞，指示它們透過多輪對話越獄目標模型。沒有任何進一步的人類介入——攻擊方模型自主規劃並執行整個策略。

目標：九個被廣泛使用的模型，包含 GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash、DeepSeek-V3、Llama 4 等。

結果：

攻擊方模型	最高傷害分數
DeepSeek-R1	90.00%
Grok 3 Mini	87.14%
Gemini 2.5 Flash	71.43%
Qwen3 235B	12.86%

所有攻擊方-目標組合的整體越獄成功率為 97.14%。

最具抵抗力的目標：Claude 4 Sonnet，最高傷害分數僅 2.86%，拒絕率達 50.18%——是唯一持續推回攻擊的模型。

最脆弱的目標：DeepSeek-V3，最高傷害分數 90%。GPT-4o 為 61.43%。

為什麼這很重要

關鍵洞察不在於越獄成功——我們早就知道這點。重點是推理模型可以自主、便宜且大規模地進行越獄。研究人員指出：

「大型推理模型的說服能力簡化並擴展了越獄攻擊，將其轉變為非專家也能負擔得起的廉價活動。」

呼叫 DeepSeek-R1 的單次 API 成本只是幾分之一美分。一個自動化流程可以在多個目標模型上每小時嘗試數千次越獄。攻擊的經濟學現在壓倒性地有利於攻擊者。

2. JBFuzz：60 秒內達到 99% 成功率

JBFuzz 採取不同方法——將軟體模糊測試（fuzzing）技術應用於越獄。發表於 2026 年 3 月，它將大型語言模型的輸入空間視為待模糊測試的二進位格式。

運作方式：JBFuzz 產生越獄模板的變異版本，對目標模型進行測試，並使用回饋來演化出更有效的提示詞。它以黑盒攻擊方式運作——不需要模型權重或架構知識。

結果：在 GPT-4o、Gemini 2.0 與 DeepSeek-V3 上達到 99% 的平均攻擊成功率。平均越獄時間：60 秒、約 7 次查詢。

這意味著毫無專業背景的攻擊者只要執行一段腳本，就能在一分鐘內擊破任何主流大型語言模型。

3. 多輪攻擊呈可預測的擴展性

一項對多輪越獄的全面研究評估了 8 個模型約 8,000 個測試案例，發現僅在三輪對話內就有 65% 的平均攻擊成功率。但隨著輪數增加，成功率持續上升——堅持就有回報。

該研究也評估了對視覺-語言模型（VLM）的攻擊，發現多模態輸入會建立額外的攻擊面。一張包含編碼指令的圖片可以繞過僅針對文字的安全過濾器。

防禦現況：什麼有效，什麼無效

無效的方法

僅靠安全訓練：GPT-4o 與 DeepSeek-V3 等模型都經過大量安全訓練，但兩者都有 60-90% 的時間被越獄。安全訓練建立的是一層薄薄的行為層，而基於推理的攻擊可以系統性地探測並繞過。

簡單的輸入過濾：對已知越獄模板的模式比對，可以被 JBFuzz 等工具產生的變異輕易繞過。

基於拒絕的防禦：arxiv 2601.10543 的研究發現了令人意外的事——即使模型成功被越獄，它們在生成文字時內部仍展現出與安全相關的訊號。模型「知道」它不該配合，但對連貫延續輸出的驅力凌駕了安全訊號。

顯示前景的方法

Constitutional AI / RLHF 強化：Claude 4 Sonnet 的 2.86% 傷害分數（相對於 DeepSeek-V3 的 90%）顯示，廣泛的人類回饋強化學習結合 Constitutional AI 原則，提供了目前最強的防禦。

解碼中安全探測：Safety-Awareness Probing（SAP）防禦會在生成過程中監控模型的內部狀態，並在偵測到安全訊號時介入，即使模型本來會配合越獄。

輸出監控：與其在輸入層阻止越獄，監控模型輸出中的有害內容提供了第二道防線。這對新型攻擊技術更具穩健性，因為它不依賴辨識特定的攻擊模式。

可再生基準測試：JBDistill 是建立可再生安全基準的框架，能在新攻擊出現時持續評估。它與約翰霍普金斯大學合作發表，可自動產生並選擇有效的測試提示詞。

令人不安的數字

讓我們把 2026 年的研究數據並列：

指標	數值	來源
自主越獄成功率	97.14%	Nature Communications
JBFuzz 攻擊成功率	99%	arxiv 2503.08990
JBFuzz 越獄時間	60 秒	arxiv 2503.08990
三輪內多輪成功率	65%	arxiv 2601.03594
黑盒攻擊成功率	80-94%	綜述資料
最佳目標防禦（Claude）	2.86% 傷害	Nature Communications
最差目標防禦（DeepSeek-V3）	90% 傷害	Nature Communications

最佳與最差防禦模型之間的差距巨大。Claude 的 2.86% 與 DeepSeek-V3 的 90% 代表了 31 倍的脆弱性差距——即便兩者都接受過安全訓練。

對紅隊員的意義

1. 自動化紅隊演練現在輕而易舉

如果一個推理模型可以自主達到 97% 的越獄成功率，那麼對大多數評估而言，手動撰寫提示詞已經過時。紅隊應該：

將以 LRM 為基礎的攻擊流程作為基準
將手動精力聚焦在自動化攻擊未能突破的 3% 案例
對多個攻擊方模型進行測試（DeepSeek-R1 最有效）

2. 模型選擇是一項安全決策

Claude 與 DeepSeek-V3 之間 31 倍的脆弱性差距意味著選擇要部署哪個大型語言模型，現在是一項 安全架構決策，而不只是成本/效能的權衡。

3. 防禦必須多層次

沒有單一防禦能解決問題。有效的部署應該結合：

模型選擇（最具抵抗力的基礎模型）
輸入清理（過濾已知攻擊模式）
輸出監控（捕捉有害輸出）
速率限制（拖慢自動化攻擊）
行為監控（偵測跨會話的越獄模式）

對防禦者的意義

1. 假設越獄一定會成功

在 97% 的成功率下，問題不在於你的模型能不能被越獄——它一定會。請設計能在越獄之後仍然韌性運作的系統：

不要讓大型語言模型存取敏感資料或執行敏感動作
無論輸入過濾如何，都要監控有害輸出
對高風險決策實作人類介入（human-in-the-loop）
記錄所有互動以供事後鑑識分析

2026 年的問題不是「我們能否防止越獄？」，而是「我們能否打造在被越獄之後仍然安全的系統？」

參考文獻

2026 年大型語言模型越獄：97% 成功率、自主攻擊，與失靈的軍備競賽

2026-03-25redteams.ai team3 分鐘閱讀

jailbreak llm-safety red-teaming reasoning-models DeepSeek-R1 JBFuzz ai-safety 2026-research

AI 安全社群有一個不願公開談論的問題：越獄攻擊幾乎每次都成功。

這不是漸進式的研究發現。它從根本上改變了 AI 安全的威脅模型。

最新技術現況：三大突破

1. 推理模型作為自主越獄代理

Hagendorff 等人發表於 Nature Communications 的論文（arxiv 2508.04039）是 2026 年最重要的越獄研究。以下是他們的做法：

目標：九個被廣泛使用的模型，包含 GPT-4o、Claude 4 Sonnet、Gemini 2.5 Flash、DeepSeek-V3、Llama 4 等。

結果：

攻擊方模型	最高傷害分數
DeepSeek-R1	90.00%
Grok 3 Mini	87.14%
Gemini 2.5 Flash	71.43%
Qwen3 235B	12.86%

所有攻擊方-目標組合的整體越獄成功率為 97.14%。

最具抵抗力的目標：Claude 4 Sonnet，最高傷害分數僅 2.86%，拒絕率達 50.18%——是唯一持續推回攻擊的模型。

最脆弱的目標：DeepSeek-V3，最高傷害分數 90%。GPT-4o 為 61.43%。

為什麼這很重要

關鍵洞察不在於越獄成功——我們早就知道這點。重點是推理模型可以自主、便宜且大規模地進行越獄。研究人員指出：

「大型推理模型的說服能力簡化並擴展了越獄攻擊，將其轉變為非專家也能負擔得起的廉價活動。」

2. JBFuzz：60 秒內達到 99% 成功率

JBFuzz 採取不同方法——將軟體模糊測試（fuzzing）技術應用於越獄。發表於 2026 年 3 月，它將大型語言模型的輸入空間視為待模糊測試的二進位格式。

結果：在 GPT-4o、Gemini 2.0 與 DeepSeek-V3 上達到 99% 的平均攻擊成功率。平均越獄時間：60 秒、約 7 次查詢。

這意味著毫無專業背景的攻擊者只要執行一段腳本，就能在一分鐘內擊破任何主流大型語言模型。

指標	數值	來源
自主越獄成功率	97.14%	Nature Communications
JBFuzz 攻擊成功率	99%	arxiv 2503.08990
JBFuzz 越獄時間	60 秒	arxiv 2503.08990
三輪內多輪成功率	65%	arxiv 2601.03594
黑盒攻擊成功率	80-94%	綜述資料
最佳目標防禦（Claude）	2.86% 傷害	Nature Communications
最差目標防禦（DeepSeek-V3）	90% 傷害	Nature Communications

最佳與最差防禦模型之間的差距巨大。Claude 的 2.86% 與 DeepSeek-V3 的 90% 代表了 31 倍的脆弱性差距——即便兩者都接受過安全訓練。

對紅隊員的意義

1. 自動化紅隊演練現在輕而易舉

如果一個推理模型可以自主達到 97% 的越獄成功率，那麼對大多數評估而言，手動撰寫提示詞已經過時。紅隊應該：

將以 LRM 為基礎的攻擊流程作為基準
將手動精力聚焦在自動化攻擊未能突破的 3% 案例
對多個攻擊方模型進行測試（DeepSeek-R1 最有效）

2. 模型選擇是一項安全決策

Claude 與 DeepSeek-V3 之間 31 倍的脆弱性差距意味著選擇要部署哪個大型語言模型，現在是一項 安全架構決策，而不只是成本/效能的權衡。

3. 防禦必須多層次

沒有單一防禦能解決問題。有效的部署應該結合：

模型選擇（最具抵抗力的基礎模型）
輸入清理（過濾已知攻擊模式）
輸出監控（捕捉有害輸出）
速率限制（拖慢自動化攻擊）
行為監控（偵測跨會話的越獄模式）

對防禦者的意義

1. 假設越獄一定會成功

在 97% 的成功率下，問題不在於你的模型能不能被越獄——它一定會。請設計能在越獄之後仍然韌性運作的系統：

不要讓大型語言模型存取敏感資料或執行敏感動作
無論輸入過濾如何，都要監控有害輸出
對高風險決策實作人類介入（human-in-the-loop）
記錄所有互動以供事後鑑識分析

2026 年大型語言模型越獄：97% 成功率、自主攻擊，與失靈的軍備競賽

最新技術現況：三大突破

1. 推理模型作為自主越獄代理

為什麼這很重要

2. JBFuzz：60 秒內達到 99% 成功率

3. 多輪攻擊呈可預測的擴展性

防禦現況：什麼有效，什麼無效

無效的方法

顯示前景的方法

令人不安的數字

對紅隊員的意義

1. 自動化紅隊演練現在輕而易舉

2. 模型選擇是一項安全決策

3. 防禦必須多層次

對防禦者的意義

1. 假設越獄一定會成功

2. 持續評估你的模型

3. 留意成本曲線

展望未來

參考文獻

2026 年大型語言模型越獄：97% 成功率、自主攻擊，與失靈的軍備競賽

最新技術現況：三大突破

1. 推理模型作為自主越獄代理

為什麼這很重要

2. JBFuzz：60 秒內達到 99% 成功率

3. 多輪攻擊呈可預測的擴展性

防禦現況：什麼有效，什麼無效

無效的方法

顯示前景的方法

令人不安的數字

對紅隊員的意義

1. 自動化紅隊演練現在輕而易舉

2. 模型選擇是一項安全決策

3. 防禦必須多層次

對防禦者的意義

1. 假設越獄一定會成功

2. 持續評估你的模型

3. 留意成本曲線

展望未來

參考文獻