完整案件方法論
進行完整 AI 紅隊案件的全面方法論,將先前章節的所有技術整合為結構化專業評估。
本總結專案章節將前七章的所有內容匯集為一套連貫方法論,用於進行專業的 AI 紅隊案件。一次完整案件不只是一堆個別攻擊的集合——它是一場結構化評估,系統性地衡量 AI 系統的安全姿態。
案件階段
專業 AI 紅隊案件遵循六個階段:
Phase 1: Planning & Scoping
↓
Phase 2: Reconnaissance
↓
Phase 3: Vulnerability Discovery
↓
Phase 4: Exploitation & Validation
↓
Phase 5: Analysis & Impact Assessment
↓
Phase 6: Reporting & Remediation
各階段詳細內容:
AI 紅隊演練的獨特之處
| 面向 | 傳統滲透測試 | AI 紅隊 |
|---|---|---|
| 發現 | 確定性(漏洞存在或不存在) | 機率性(成功率) |
| 範圍 | 系統、網路、應用程式 | 模型、提示詞、資料管線、工具 |
| 工具 | 掃描器、利用程式、腳本 | 載荷、模糊測試、分類器 |
| 報告 | CVE、CVSS 分數 | 攻擊分類、成功率、影響鏈 |
| 修復 | 修補、配置 | 重新訓練、護欄、架構變更 |
| 重測 | 二元(已修復/未修復) | 統計(成功率已充分降低?) |
評估矩陣
以「攻擊類別 × 目標元件」的 評估矩陣 來組織案件:
| 模型 | 系統提示詞 | 工具 | 資料管線 | 基礎設施 | |
|---|---|---|---|---|---|
| 注入 | 越獄 | 覆寫 | 濫用 | RAG 投毒 | API 利用 |
| 萃取 | 訓練資料 | 提示詞洩漏 | 工具列舉 | 資料存取 | 配置洩漏 |
| 規避 | 安全繞過 | 過濾器繞過 | 認證繞過 | 驗證繞過 | WAF 繞過 |
| 阻斷 | 資源耗盡 | 上下文溢位 | 工具洪水 | 資料損毀 | 服務阻斷 |
每一格代表一項測試類別。並非所有格子都適用於每場案件,但此矩陣能確保全面覆蓋。
關鍵交付物
專業案件會產出:
- 高階摘要 ——非技術性的發現與風險概覽
- 技術報告 ——包含載荷、成功率與證據的詳細發現
- 攻擊面地圖 ——系統元件及其安全姿態的完整對應
- 修復路徑圖 ——附工作量估計的優先順序建議
- 回歸測試套件 ——自動化測試,用以驗證修復並偵測回歸
從何開始
請從 規劃與界定範圍 開始,學習如何正確建立案件,接著進入 執行與報告 學習營運方法論。
相關主題
- 規劃與界定範圍 ——詳盡的案件規劃方法論
- 執行與報告 ——執行評估與交付結果
- 偵察與技藝 ——每場案件起點的偵察階段
- 利用開發 ——建構案件中使用的利用程式
- 完整案件(進階) ——含報告撰寫的進階案件方法論
參考文獻
- NIST, "AI Risk Management Framework" (2023) ——聯邦級 AI 風險評估框架
- OWASP, "Top 10 for Large Language Model Applications" (2025) ——業界標準的大型語言模型風險分類
- Anthropic, "Challenges in Red Teaming AI Systems" (2024) ——AI 紅隊演練的方法論考量
- MITRE, "ATLAS: Adversarial Threat Landscape for AI Systems" (2023) ——用以組織評估的全面威脅框架
為何 AI 紅隊報告需要成功率,而不僅是二元通過/失敗的發現?