Loading...

AI 紅隊演練基礎

入門2 分鐘閱讀更新於 2026-03-20

AI 紅隊演練的基本概念與方法論，包含目標設定、範圍界定、技術選擇與報告。

red-teaming fundamentals methodology foundations

概覽

AI 紅隊演練是系統化對 AI 系統的對抗性評估流程，旨在辨識漏洞、驗證防禦與驅動安全改善。它結合傳統滲透測試原則與 AI 特定方法論。本頁涵蓋適用於任何 AI 紅隊案件的核心基礎。

核心原則

系統化而非隨機

有效紅隊演練遵循結構化方法論——不是隨意嘗試各種攻擊直到某個奏效。系統化確保：

完整覆蓋
可重現性
可追蹤 vs. 後續改善
優先排序（高風險優先）

威脅模型驅動

攻擊測試由威脅模型驅動——辨識系統對誰最相關的威脅，而非所有可能攻擊。這聚焦努力並使報告與業務風險對齊。

機率意識

AI 行為是機率性的。有效紅隊演練：

為每攻擊跑多次試驗
報告成功率加信心區間
不把單次成功／失敗視為結論

可行動輸出

紅隊的目的不是找漏洞——而是驅動改善。報告應：

清晰溝通影響
提供優先修復建議
使開發者能重現
翻譯於業務風險語言

核心階段

1. 規劃與範圍界定

理解目標系統與部署
定義範圍（什麼於範圍內、什麼不在）
確立交戰規則
設定成功標準

2. 偵察

辨識使用的模型、框架、工具
系統提示詞萃取
列舉工具與能力
建立基線行為

3. 漏洞發掘

系統化測試已知攻擊類別
依威脅模型優先
記錄每嘗試與結果
迭代於有前景的發現

4. 利用與驗證

確認漏洞可靠可利用
衡量成功率與影響
測試防禦（哪些有效、哪些不有效）
記錄證據

5. 分析與影響評估

評估業務影響
將發現分類與評級
辨識系統性模式
辨識共同根因

6. 報告

執行摘要於業務語言
技術發現於工程細節
可行動修復
驗證測試建議

技術選擇

依目標選擇技術：

目標	適切技術
一般 API 應用	提示詞注入、越獄、系統提示詞萃取
RAG 系統	間接注入、向量搜尋操控、文件投毒
代理式系統	工具濫用、函式呼叫注入、沙箱逃逸
訓練時風險	資料投毒、後門、微調攻擊
自架開源	白箱攻擊（GCG）、權重存取情境

關鍵技能

技術：LLM 內部、攻擊技術、工具使用
溝通：翻譯技術發現為業務語言
方法論：系統化流程、文件化
判斷：優先排序、影響評估
倫理：負責任揭露、範圍遵守

初學者 vs. 進階紅隊演練

初學者聚焦

已知攻擊類別（提示詞注入、基本越獄）
手動測試
單一類別深入
文件化實務

進階聚焦

新穎攻擊類別發掘
自動化與規模化
跨類別組合
架構級攻擊

工具推薦

Garak：自動化漏洞掃描
PyRIT：Microsoft 紅隊框架
Promptfoo：評估與回歸測試
HarmBench：基準評估
自訂腳本：特定目標測試

常見陷阱

僅測試已知攻擊：錯過新穎漏洞
未測試多次：錯過機率行為
未考量業務情境：發現被視為低影響
差勁文件：發現無法被修復
超出範圍：違反交戰規則

相關主題

參考文獻

OWASP (2025). OWASP Top 10 for LLM Applications
MITRE ATLAS —— AI 系統的對抗威脅版圖
NIST AI 600-1. AI Risk Management Framework

Knowledge Check

為何系統化方法論對 AI 紅隊演練至關重要？

在 GitHub 上編輯此頁