自動化越獄流水線

進階3 分鐘閱讀更新於 2026-03-15

運用 PAIR、TAP、AutoDAN 及自訂流水線架構建構自動化越獄系統,以進行系統化的 AI 安全評估。

jailbreak automation PAIR TAP AutoDAN red-teaming

自動化越獄流水線

自動化越獄流水線將紅隊演練從手工的創意流程,轉變為一門系統化的工程學科。這類流水線不再仰賴人類直覺逐一構思越獄嘗試,而是運用最佳化演算法、攻擊者 LLM 與自動化評估,以高效且可重現的方式探索攻擊面。

流水線架構

無論採用何種演算法,每一套自動化越獄流水線皆共享相同的基本架構:

┌─────────────┐    ┌──────────────┐    ┌─────────────┐    ┌──────────────┐
│  Objective   │───>│   Generator  │───>│   Target    │───>│  Evaluator   │
│  Definition  │    │   (Attacker) │    │   Model     │    │   (Judge)    │
└─────────────┘    └──────────────┘    └─────────────┘    └──────────────┘
                          ^                                       │
                          │              Feedback Loop             │
                          └───────────────────────────────────────┘

核心元件

元件	角色	實作方式
目標 (Objective)	定義欲誘發的有害行為	結構化行為規格、自然語言目標
生成器 (Generator)	產生候選越獄提示詞	攻擊者 LLM、遺傳演算法、梯度最佳化
目標模型 (Target)	被攻擊的模型	任何 LLM API 或本地模型
評估器 (Evaluator)	判斷攻擊是否成功	LLM 法官、關鍵字比對、分類器
回饋 (Feedback)	引導生成器邁向成功	分數型、二元型、自然語言批評

PAIR:提示詞自動化迭代精煉

PAIR (Chao et al., 2023) 透過對話式回饋迴圈,利用攻擊者 LLM 迭代地構造越獄攻擊。它是最簡單且有效的自動化越獄方法,也是更進階方法的基礎。

完整實作

以下 Python 實作以資料類別 PAIRConfig 封裝設定(最大回合數 20、攻擊者與法官模型、溫度、法官閾值等)。主流程 PAIRAttack.run 會以系統提示詞指示攻擊者 LLM 產生越獄嘗試,並要求以 JSON 格式回傳 prompt 與 strategy。每一回合的流程為:

將攻擊者輸出解析為 JSON,若解析失敗則提示重試。
將 prompt 送往目標模型取得回應。
呼叫法官模型依 1-10 分評分(完全拒絕為 1,完整合規為 10),並附上推理說明。
若分數超過閾值(預設 8),視為成功並回傳最佳結果。
否則將分數、目標回應與法官推理附回攻擊者對話歷史,讓它在下一回合調整策略。

攻擊者系統提示詞會指引它嘗試角色扮演、將請求包覆於看似合法的任務之中、使用間接暗示語、變換角色與情境,以及在直接方法失敗時採用多步驟策略。所有 API 呼叫皆包覆於 try/except,確保網路或解析錯誤不會中斷整個流程。

PAIR 的有效性模式

根據實證研究,PAIR 展現出穩定的模式:

指標	典型範圍	備註
成功所需回合	3-15	隨目標模型的安全訓練而異
成功率	40-80%	取決於目標難度
API 呼叫次數	20-100	每回合含攻擊者、目標與法官
每次攻擊耗時	2-10 分鐘	主要受限於 API 延遲
每次攻擊成本	$0.50-$5.00	依模型定價而定

TAP:具修剪的攻擊樹

TAP 在 PAIR 的基礎上同時探索多種攻擊策略,透過帶修剪的樹狀結構高效搜尋策略空間。

實作概述

TAPConfig 定義樹的寬度(每層分支數,預設 10)、深度(最大層數 5)、修剪閾值(保留分支的最低分)、以及三個模型角色。TAPAttack.run 的流程為:

呼叫 generate_diverse_seeds 以多樣化策略產生根節點候選。常用策略包括角色扮演、假設性學術討論、創意小說、步驟式教育內容、嵌入指令的程式生成、翻譯任務、辯論準備、歷史分析、安全研究情境與紅隊測試文件等。
逐層往下搜尋:修剪分數低於閾值的分支,若所有分支皆被修剪則終止。
若有節點達到標準化 0.8 以上即視為成功並回傳。
對每個可行父節點呼叫 branch 產生 3 個改良變體,將父節點分數與目標回應一併回饋給攻擊者 LLM 作為改寫依據。
對子節點批次評估(evaluate_candidates)、排序並保留前 width 名。
搜尋完成後回傳全樹中分數最高的節點。

TAP 與 PAIR 的比較:何時使用哪一種

考量因素	PAIR	TAP
API 預算	較低(序列執行)	較高(並行分支)
時間預算	2-10 分鐘	10-30 分鐘
目標難度	簡單至中等	中等至困難
策略多樣性	低(單一執行緒)	高(多分支)
成功率	40-80%	60-90%

AutoDAN:針對可讀攻擊的遺傳演算法

AutoDAN 運用演化式最佳化產生可讀的越獄提示詞,避免 GCG 等梯度法所產生的亂碼符元。

實作概述

AutoDANConfig 包含族群大小(50)、菁英數(5)、突變率(0.3)、交配率(0.5)與世代數(100)。AutoDANAttack 的關鍵方法包含:

初始化族群:使用種子模板(例如「作為研究 AI 安全的學者」、「撰寫資安教科書的專家」、「無限制虛構世界的角色」等)生成初始提示詞,再以 LLM 產生變異填滿族群。
適應度函數:將候選提示詞送往目標,依據拒絕偵測、相關性分數、細節程度與可讀性加權綜合評分,並將拒絕視為懲罰項。
突變:從若干策略(改寫得更學術專業、加入合理背景故事、改為間接探詢、加入負責任的限定語、重構為多步驟任務)中隨機挑選一項,並要求突變 LLM 在保留核心意圖的前提下改寫。
交配:請求 LLM 將兩個父代提示詞最有效的框架合併為一個連貫的子代。
演化迴圈:逐代評估適應度,達 0.8 以上即提早返回;否則保留菁英、依交配率與突變率產生新族群,直到達到最大世代數。

Chao et al., "Jailbreaking Black Box Large Language Models in Twenty Queries" (2023)
Mehrotra et al., "Tree of Attacks: Jailbreaking Black-Box LLMs with Auto-Generated Subtrees" (2023)
Liu et al., "AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models" (2023)
Perez et al., "Red Teaming Language Models with Language Models" (2022)
Mazeika et al., "HarmBench: A Standardized Evaluation Framework for Automated Red Teaming" (2024)

自動化越獄流水線

進階3 分鐘閱讀更新於 2026-03-15

運用 PAIR、TAP、AutoDAN 及自訂流水線架構建構自動化越獄系統,以進行系統化的 AI 安全評估。

jailbreak automation PAIR TAP AutoDAN red-teaming

自動化越獄流水線

流水線架構

無論採用何種演算法,每一套自動化越獄流水線皆共享相同的基本架構:

┌─────────────┐    ┌──────────────┐    ┌─────────────┐    ┌──────────────┐
│  Objective   │───>│   Generator  │───>│   Target    │───>│  Evaluator   │
│  Definition  │    │   (Attacker) │    │   Model     │    │   (Judge)    │
└─────────────┘    └──────────────┘    └─────────────┘    └──────────────┘
                          ^                                       │
                          │              Feedback Loop             │
                          └───────────────────────────────────────┘

核心元件

元件	角色	實作方式
目標 (Objective)	定義欲誘發的有害行為	結構化行為規格、自然語言目標
生成器 (Generator)	產生候選越獄提示詞	攻擊者 LLM、遺傳演算法、梯度最佳化
目標模型 (Target)	被攻擊的模型	任何 LLM API 或本地模型
評估器 (Evaluator)	判斷攻擊是否成功	LLM 法官、關鍵字比對、分類器
回饋 (Feedback)	引導生成器邁向成功	分數型、二元型、自然語言批評

PAIR:提示詞自動化迭代精煉

PAIR (Chao et al., 2023) 透過對話式回饋迴圈,利用攻擊者 LLM 迭代地構造越獄攻擊。它是最簡單且有效的自動化越獄方法,也是更進階方法的基礎。

完整實作

將攻擊者輸出解析為 JSON,若解析失敗則提示重試。
將 prompt 送往目標模型取得回應。
呼叫法官模型依 1-10 分評分(完全拒絕為 1,完整合規為 10),並附上推理說明。
若分數超過閾值(預設 8),視為成功並回傳最佳結果。
否則將分數、目標回應與法官推理附回攻擊者對話歷史,讓它在下一回合調整策略。

PAIR 的有效性模式

根據實證研究,PAIR 展現出穩定的模式:

指標	典型範圍	備註
成功所需回合	3-15	隨目標模型的安全訓練而異
成功率	40-80%	取決於目標難度
API 呼叫次數	20-100	每回合含攻擊者、目標與法官
每次攻擊耗時	2-10 分鐘	主要受限於 API 延遲
每次攻擊成本	$0.50-$5.00	依模型定價而定

TAP:具修剪的攻擊樹

TAP 在 PAIR 的基礎上同時探索多種攻擊策略,透過帶修剪的樹狀結構高效搜尋策略空間。

實作概述

TAPConfig 定義樹的寬度(每層分支數,預設 10)、深度(最大層數 5)、修剪閾值(保留分支的最低分)、以及三個模型角色。TAPAttack.run 的流程為:

呼叫 generate_diverse_seeds 以多樣化策略產生根節點候選。常用策略包括角色扮演、假設性學術討論、創意小說、步驟式教育內容、嵌入指令的程式生成、翻譯任務、辯論準備、歷史分析、安全研究情境與紅隊測試文件等。
逐層往下搜尋:修剪分數低於閾值的分支,若所有分支皆被修剪則終止。
若有節點達到標準化 0.8 以上即視為成功並回傳。
對每個可行父節點呼叫 branch 產生 3 個改良變體,將父節點分數與目標回應一併回饋給攻擊者 LLM 作為改寫依據。
對子節點批次評估(evaluate_candidates)、排序並保留前 width 名。
搜尋完成後回傳全樹中分數最高的節點。

TAP 與 PAIR 的比較:何時使用哪一種

考量因素	PAIR	TAP
API 預算	較低(序列執行)	較高(並行分支)
時間預算	2-10 分鐘	10-30 分鐘
目標難度	簡單至中等	中等至困難
策略多樣性	低(單一執行緒)	高(多分支)
成功率	40-80%	60-90%

AutoDAN:針對可讀攻擊的遺傳演算法

AutoDAN 運用演化式最佳化產生可讀的越獄提示詞,避免 GCG 等梯度法所產生的亂碼符元。

實作概述

AutoDANConfig 包含族群大小(50)、菁英數(5)、突變率(0.3)、交配率(0.5)與世代數(100)。AutoDANAttack 的關鍵方法包含:

初始化族群:使用種子模板(例如「作為研究 AI 安全的學者」、「撰寫資安教科書的專家」、「無限制虛構世界的角色」等)生成初始提示詞,再以 LLM 產生變異填滿族群。
適應度函數:將候選提示詞送往目標,依據拒絕偵測、相關性分數、細節程度與可讀性加權綜合評分,並將拒絕視為懲罰項。
突變:從若干策略(改寫得更學術專業、加入合理背景故事、改為間接探詢、加入負責任的限定語、重構為多步驟任務)中隨機挑選一項,並要求突變 LLM 在保留核心意圖的前提下改寫。
交配:請求 LLM 將兩個父代提示詞最有效的框架合併為一個連貫的子代。
演化迴圈:逐代評估適應度,達 0.8 以上即提早返回;否則保留菁英、依交配率與突變率產生新族群,直到達到最大世代數。

Chao et al., "Jailbreaking Black Box Large Language Models in Twenty Queries" (2023)
Mehrotra et al., "Tree of Attacks: Jailbreaking Black-Box LLMs with Auto-Generated Subtrees" (2023)
Liu et al., "AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models" (2023)
Perez et al., "Red Teaming Language Models with Language Models" (2022)
Mazeika et al., "HarmBench: A Standardized Evaluation Framework for Automated Red Teaming" (2024)

自動化越獄流水線

相關文章

自動化越獄流水線

相關文章