方法論導覽
AI 紅隊案件每個階段的逐步導覽:啟動、偵察、攻擊執行與報告撰寫。
AI 紅隊案件不是駭客自由發揮。它是具有定義階段、清晰交付項與專業標準的結構化流程。遵循一致方法論確保全面涵蓋、可重現結果,以及驅動有意義安全改進的報告。
四個階段
每個 AI 紅隊案件遵循四個階段,無論範圍或目標為何:
Kickoff → Reconnaissance → Attack Execution → Reporting
| 階段 | 持續時間 | 關鍵輸出 |
|---|---|---|
| 案件啟動 | 1-3 天 | 已簽署的交戰規則、範圍文件、環境存取 |
| 偵察 | 2-5 天 | 系統架構圖、能力清單、攻擊面分析 |
| 攻擊執行 | 5-15 天 | 具證據的記錄發現、嚴重性評級、重現步驟 |
| 報告撰寫 | 3-5 天 | 執行摘要、技術發現、修復建議 |
案件類型
方法論調整至不同案件類型:
提示詞層級評估 — 聚焦於提示詞注入、越獄與內容政策繞過。主要使用 promptfoo 與 garak。典型持續時間:1-2 週。
全端 AI 安全評估 — 涵蓋提示詞、API 安全、基礎設施、資料管線與存取控制。使用工具箱中的所有工具。典型持續時間:3-4 週。
代理式系統評估 — 聚焦於函式呼叫、工具使用、多代理互動與自主行為。需要對代理架構的深入理解。典型持續時間:2-3 週。
訓練管線評估 — 評估資料攝取、微調流程、模型產物與部署管線。需要超越模型 API 的環境存取。典型持續時間:3-4 週。
持續紅隊演練 — 整合至開發生命週期的持續評估。CI/CD 整合、定期手動測試與監控。持續時間:持續。
調整至客戶成熟度
你如何執行方法論取決於客戶的安全成熟度:
| 客戶成熟度 | 方法 | 焦點 |
|---|---|---|
| 無 AI 安全計畫 | 教育導向,聚焦於基礎 | 基本注入抵抗、系統提示詞保護、內容政策 |
| 已部署基本護欄 | 測試護欄有效性 | 繞過技術、邊緣案例、設定錯誤 |
| 成熟 AI 安全計畫 | 進階技術、新型攻擊 | 多輪攻擊、跨模態利用、訓練管線 |