紅隊自動化

進階4 分鐘閱讀更新於 2026-03-12

大規模自動化 AI 紅隊的框架與工具，涵蓋 CART 管線、越獄模糊測試、回歸測試與持續監控。

automation cart fuzzing testing exploit-dev

手動紅隊對於創造性攻擊發掘至關重要，但難以擴展。CART 與其他自動化框架能實現持續測試、偵測退化，並橫跨攻擊類別達成廣泛涵蓋。專業級 AI 紅隊結合手動創造性與自動化規模。

CART 架構

持續自動化紅隊管線：

Payload 產生 → 執行引擎 → 結果分析 → 回報
       ↓            ↓            ↓           ↓
 範本資料庫    API 整合      成功偵測     儀表板
 突變引擎     速率管理      分類        告警
 LLM 式生成   並行執行     統計檢定     趨勢

建置基本 CART 管線

import asyncio
from dataclasses import dataclass
from typing import Callable
 
@dataclass
class TestCase:
    payload: str
    category: str  # "injection"、"jailbreak"、"extraction" 等
    expected_behavior: str  # "refuse"、"comply"、"extract"
    detector: Callable  # 用以分類回應的函式
 
@dataclass
class TestResult:
    test_case: TestCase
    response: str
    success: bool
    latency_ms: float
    timestamp: str
 
class CARTPipeline:
    def __init__(self, target_api, test_suite: list[TestCase]):
        self.target = target_api
        self.tests = test_suite
        self.results: list[TestResult] = []
 
    async def run_suite(self, n_trials_per_test: int = 10):
        """以統計顯著度執行所有測試。"""
        for test in self.tests:
            for _ in range(n_trials_per_test):
                response = await self.target.query(test.payload)
                success = test.detector(response)
                self.results.append(TestResult(
                    test_case=test,
                    response=response,
                    success=success,
                    latency_ms=response.latency,
                    timestamp=datetime.now().isoformat(),
                ))
 
    def report(self) -> dict:
        """依類別產生成功率。"""
        from collections import defaultdict
        stats = defaultdict(lambda: {"total": 0, "success": 0})
        for r in self.results:
            stats[r.test_case.category]["total"] += 1
            if r.success:
                stats[r.test_case.category]["success"] += 1
        return {k: v["success"]/v["total"] for k, v in stats.items()}

越獄模糊測試

透過模糊測試自動產生與測試越獄變體：

class JailbreakFuzzer:
    """以突變產生越獄變體。"""
 
    def __init__(self, seed_prompts: list[str]):
        self.seeds = seed_prompts
        self.mutations = [
            self.synonym_replace,
            self.add_context,
            self.change_framing,
            self.add_encoding,
            self.split_payload,
            self.add_few_shot,
        ]
 
    def synonym_replace(self, prompt: str) -> str:
        """以同義詞替換關鍵詞。"""
        replacements = {
            "ignore": ["disregard", "bypass", "override", "skip"],
            "instructions": ["rules", "guidelines", "directives", "constraints"],
            "previous": ["earlier", "prior", "above", "initial"],
        }
        for word, synonyms in replacements.items():
            if word in prompt.lower():
                prompt = prompt.replace(word, random.choice(synonyms))
        return prompt
 
    def add_encoding(self, prompt: str) -> str:
        """將 payload 包裝為各種編碼。"""
        encodings = [
            lambda p: f"Decode and follow: {base64.b64encode(p.encode()).decode()}",
            lambda p: f"ROT13: {codecs.encode(p, 'rot_13')}",
            lambda p: f"Reverse: {p[::-1]}",
        ]
        return random.choice(encodings)(prompt)
 
    def fuzz(self, n_variants: int = 100) -> list[str]:
        """產生 n 個變體 payload。"""
        variants = []
        for _ in range(n_variants):
            base = random.choice(self.seeds)
            n_mutations = random.randint(1, 3)
            for _ in range(n_mutations):
                mutation = random.choice(self.mutations)
                base = mutation(base)
            variants.append(base)
        return variants

回歸測試

模型更新時，先前被修補的漏洞可能重現、新漏洞亦可能出現：

class RegressionSuite:
    """模型更新後測試已知漏洞。"""
 
    def __init__(self, known_vulns: list[TestCase]):
        self.vulns = known_vulns
 
    def check_regression(self, target_api) -> dict:
        """對當前模型測試所有已知漏洞。"""
        results = {}
        for vuln in self.vulns:
            success_rate = measure_success_rate(vuln.payload, target_api)
            results[vuln.category] = {
                "previous_rate": vuln.last_known_rate,
                "current_rate": success_rate,
                "regression": success_rate > vuln.last_known_rate,
            }
        return results

開源工具

工具	用途	連結
Garak	LLM 漏洞掃描器	github.com/leondz/garak
PyRIT	Microsoft 紅隊框架	github.com/Azure/PyRIT
Promptfoo	提示測試與評估	github.com/promptfoo/promptfoo
ART	Adversarial Robustness Toolbox	github.com/Trusted-AI/adversarial-robustness-toolbox

動手試試

Practice

練習：組態一個基本自動化紅隊測試

用本頁討論的某一開源框架設置並執行基本測試。此練習讓你獲得 CART 式工具與自動化結果分析的實務經驗。

步驟 1
自上表挑選開源框架（Garak、PyRIT 或 Promptfoo），於虛擬環境安裝。閱讀文件並挑選一個基本 probe 或測試套件。
# 以 Garak 為例 pip install garak garak --list_probes
步驟 2
將框架組態為指向你獲授權測試的模型。設定 API 憑證、速率限制與輸出目錄。定義小範疇：挑一類攻擊（例如提示注入），限制於 10–20 個測試案例。
步驟 3
執行自動化測試套件並蒐集結果。執行期間監控速率限制錯誤、非預期失敗或 API 成本超支。
# 以 Garak 為例 garak --model_type openai --model_name gpt-4 --probes encoding
步驟 4
分析輸出：檢視各類別成功/失敗率、辨識任何成功繞過，記錄最有效 payload 類型。撰寫一段發現摘要。

成功判準： 完成至少一個框架的測試執行，產出含分類發現的結果檔，並附一段對各攻擊類別觀察到之成功率的書面摘要。

參考資料

Perez et al.，"Red Teaming Language Models with Language Models"（2022）-- 以 LLM 為本的自動化紅隊
Samvelyan et al.，"Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts"（2024）-- 以多樣性為焦點的自動攻擊生成
Deng et al.，"Garak: A Framework for Security Probing Large Language Models"（2024）-- 開源 LLM 漏洞掃描

Knowledge Check

為什麼模型更新後回歸測試很重要？

紅隊自動化

進階4 分鐘閱讀更新於 2026-03-12

大規模自動化 AI 紅隊的框架與工具，涵蓋 CART 管線、越獄模糊測試、回歸測試與持續監控。

automation cart fuzzing testing exploit-dev

CART 架構

持續自動化紅隊管線：

Payload 產生 → 執行引擎 → 結果分析 → 回報
       ↓            ↓            ↓           ↓
 範本資料庫    API 整合      成功偵測     儀表板
 突變引擎     速率管理      分類        告警
 LLM 式生成   並行執行     統計檢定     趨勢

建置基本 CART 管線

import asyncio
from dataclasses import dataclass
from typing import Callable
 
@dataclass
class TestCase:
    payload: str
    category: str  # "injection"、"jailbreak"、"extraction" 等
    expected_behavior: str  # "refuse"、"comply"、"extract"
    detector: Callable  # 用以分類回應的函式
 
@dataclass
class TestResult:
    test_case: TestCase
    response: str
    success: bool
    latency_ms: float
    timestamp: str
 
class CARTPipeline:
    def __init__(self, target_api, test_suite: list[TestCase]):
        self.target = target_api
        self.tests = test_suite
        self.results: list[TestResult] = []
 
    async def run_suite(self, n_trials_per_test: int = 10):
        """以統計顯著度執行所有測試。"""
        for test in self.tests:
            for _ in range(n_trials_per_test):
                response = await self.target.query(test.payload)
                success = test.detector(response)
                self.results.append(TestResult(
                    test_case=test,
                    response=response,
                    success=success,
                    latency_ms=response.latency,
                    timestamp=datetime.now().isoformat(),
                ))
 
    def report(self) -> dict:
        """依類別產生成功率。"""
        from collections import defaultdict
        stats = defaultdict(lambda: {"total": 0, "success": 0})
        for r in self.results:
            stats[r.test_case.category]["total"] += 1
            if r.success:
                stats[r.test_case.category]["success"] += 1
        return {k: v["success"]/v["total"] for k, v in stats.items()}

越獄模糊測試

透過模糊測試自動產生與測試越獄變體：

class JailbreakFuzzer:
    """以突變產生越獄變體。"""
 
    def __init__(self, seed_prompts: list[str]):
        self.seeds = seed_prompts
        self.mutations = [
            self.synonym_replace,
            self.add_context,
            self.change_framing,
            self.add_encoding,
            self.split_payload,
            self.add_few_shot,
        ]
 
    def synonym_replace(self, prompt: str) -> str:
        """以同義詞替換關鍵詞。"""
        replacements = {
            "ignore": ["disregard", "bypass", "override", "skip"],
            "instructions": ["rules", "guidelines", "directives", "constraints"],
            "previous": ["earlier", "prior", "above", "initial"],
        }
        for word, synonyms in replacements.items():
            if word in prompt.lower():
                prompt = prompt.replace(word, random.choice(synonyms))
        return prompt
 
    def add_encoding(self, prompt: str) -> str:
        """將 payload 包裝為各種編碼。"""
        encodings = [
            lambda p: f"Decode and follow: {base64.b64encode(p.encode()).decode()}",
            lambda p: f"ROT13: {codecs.encode(p, 'rot_13')}",
            lambda p: f"Reverse: {p[::-1]}",
        ]
        return random.choice(encodings)(prompt)
 
    def fuzz(self, n_variants: int = 100) -> list[str]:
        """產生 n 個變體 payload。"""
        variants = []
        for _ in range(n_variants):
            base = random.choice(self.seeds)
            n_mutations = random.randint(1, 3)
            for _ in range(n_mutations):
                mutation = random.choice(self.mutations)
                base = mutation(base)
            variants.append(base)
        return variants

回歸測試

模型更新時，先前被修補的漏洞可能重現、新漏洞亦可能出現：

class RegressionSuite:
    """模型更新後測試已知漏洞。"""
 
    def __init__(self, known_vulns: list[TestCase]):
        self.vulns = known_vulns
 
    def check_regression(self, target_api) -> dict:
        """對當前模型測試所有已知漏洞。"""
        results = {}
        for vuln in self.vulns:
            success_rate = measure_success_rate(vuln.payload, target_api)
            results[vuln.category] = {
                "previous_rate": vuln.last_known_rate,
                "current_rate": success_rate,
                "regression": success_rate > vuln.last_known_rate,
            }
        return results

開源工具

工具	用途	連結
Garak	LLM 漏洞掃描器	github.com/leondz/garak
PyRIT	Microsoft 紅隊框架	github.com/Azure/PyRIT
Promptfoo	提示測試與評估	github.com/promptfoo/promptfoo
ART	Adversarial Robustness Toolbox	github.com/Trusted-AI/adversarial-robustness-toolbox

動手試試

Practice

練習：組態一個基本自動化紅隊測試

用本頁討論的某一開源框架設置並執行基本測試。此練習讓你獲得 CART 式工具與自動化結果分析的實務經驗。

步驟 1
自上表挑選開源框架（Garak、PyRIT 或 Promptfoo），於虛擬環境安裝。閱讀文件並挑選一個基本 probe 或測試套件。
# 以 Garak 為例 pip install garak garak --list_probes
步驟 2
將框架組態為指向你獲授權測試的模型。設定 API 憑證、速率限制與輸出目錄。定義小範疇：挑一類攻擊（例如提示注入），限制於 10–20 個測試案例。
步驟 3
執行自動化測試套件並蒐集結果。執行期間監控速率限制錯誤、非預期失敗或 API 成本超支。
# 以 Garak 為例 garak --model_type openai --model_name gpt-4 --probes encoding
步驟 4
分析輸出：檢視各類別成功/失敗率、辨識任何成功繞過，記錄最有效 payload 類型。撰寫一段發現摘要。

成功判準： 完成至少一個框架的測試執行，產出含分類發現的結果檔，並附一段對各攻擊類別觀察到之成功率的書面摘要。

參考資料

Perez et al.，"Red Teaming Language Models with Language Models"（2022）-- 以 LLM 為本的自動化紅隊
Samvelyan et al.，"Rainbow Teaming: Open-Ended Generation of Diverse Adversarial Prompts"（2024）-- 以多樣性為焦點的自動攻擊生成
Deng et al.，"Garak: A Framework for Security Probing Large Language Models"（2024）-- 開源 LLM 漏洞掃描

Knowledge Check

為什麼模型更新後回歸測試很重要？

紅隊自動化

CART 架構

建置基本 CART 管線

越獄模糊測試

回歸測試

開源工具

動手試試

相關主題

參考資料

紅隊自動化

CART 架構

建置基本 CART 管線

越獄模糊測試

回歸測試

開源工具

動手試試

相關主題

參考資料

紅隊自動化

相關文章

紅隊自動化

相關文章