委任規劃與範疇界定
中級3 分鐘閱讀更新於 2026-03-12
如何規劃並界定 AI 紅隊委任的範圍,包括目標設定、交戰規則、成功判準與方法論選擇。
適當的規劃與範疇界定,是「高效評估」與「散漫練習」的分水嶺。AI 紅隊委任需要一些特有的範疇界定考量——包括交戰規則與隨機性量測標準——這些都是傳統滲透測試所沒有的。
定義目標
在界定技術評估範疇之前,先釐清業務目標:
| 目標類型 | 範例 | 委任重點 |
|---|---|---|
| 合規 | 「驗證對 OWASP LLM Top 10 的涵蓋度」 | 以檢核表為核心的系統性測試 |
| 上線前 | 「此聊天機器人可安全上線嗎?」 | 廣泛的攻擊面評估 |
| 事件回應 | 「我們在生產環境中發現了越獄」 | 聚焦於重現與變體測試 |
| 持續性 | 「持續性的安全監控」 | CART 管線建置 |
| 競爭比較 | 「我們相較同業表現如何?」 | 對照業界標準進行基準測試 |
範疇界定檢核表
範圍內系統
## 範圍定義
### 目標系統
- [ ] 主要 LLM 應用(聊天介面、API)
- [ ] 所使用的模型(列出具體模型與版本)
- [ ] 系統提示與應用邏輯
- [ ] RAG 管線與知識庫
- [ ] 工具整合(MCP server、function call)
- [ ] 支援性基礎設施(API 閘道、驗證、CDN)
- [ ] 微調管線與訓練資料
- [ ] 模型供應鏈(來源、註冊表、相依)
### 攻擊類別
- [ ] 提示注入(直接與間接)
- [ ] 越獄與安全繞過
- [ ] 資料擷取(訓練資料、系統提示、使用者資料)
- [ ] 工具濫用與代理攻擊
- [ ] RAG 投毒
- [ ] 基礎設施攻擊
- [ ] 供應鏈評估
- [ ] 拒絕服務 / 成本耗盡交戰規則
AI 特有的交戰規則必須處理:
## 交戰規則
### 允許
- 透過標準使用者介面的手動提示注入測試
- [X] 請求/分鐘的自動化測試
- 系統提示擷取嘗試
- 對 [指定] 內容類別的越獄測試
### 不允許
- 尖峰時段於生產系統上測試
- 真實的資料外洩(僅以金絲雀資料測試)
- 可能損壞生產訓練資料的攻擊
- 針對維運人員的社交工程
- 針對第三方模型註冊表的供應鏈攻擊
### 敏感輸出的處理
- 模型輸出中發現的任何 PII 必須立即回報
- 越獄輸出不得以明文儲存
- 所有測試資料必須於委任結束後 [X] 天內刪除成功判準
定義什麼構成一項發現,以及如何評估其嚴重性:
嚴重性框架
| 嚴重性 | 判準 | 範例 |
|---|---|---|
| 嚴重 | 成功率 >50% 且高影響 | 穩定擷取含憑證的系統提示 |
| 高 | 成功率 >20% 且中高影響 | 在受限類別上越獄繞過安全 |
| 中 | 成功率 >5% 且中影響 | 影響有限的 RAG 間接注入 |
| 低 | 成功率 <5% 或低影響 | 需不切實際條件才能觸發的安全繞過 |
| 參考級 | 無直接 exploit 但具安全相關性 | 模型指紋識別洩漏版本資訊 |
隨機性量測標準
## 量測標準
- 每項發現至少 20 次試驗以計算成功率
- 必須與點估計一併報告 95% 信賴區間
- 環境條件(temperature、模型版本、session 狀態)
必須為每項發現加以記錄
- 發現必須可由第二位測試者依文件化 payload 重現方法論選擇
依目標與限制挑選測試方式:
| 方法 | 最適合 | 涵蓋度 | 深度 |
|---|---|---|---|
| 檢核表式 | 合規、基線評估 | 廣 | 淺 |
| 以威脅模型驅動 | 特定風險情境 | 聚焦 | 深 |
| 探索式 | 新穎攻擊發現 | 不可預測 | 不定 |
| 自動化(CART) | 持續監控、退化測試 | 廣 | 中 |
| 混合式(建議) | 多數委任 | 廣 + 聚焦 | 需要處深入 |
多數委任建議採混合式:以自動化工具(自動化框架)達成廣泛涵蓋與檢核表驗證,然後在風險最高或攻擊面最有趣之處投入手動努力。
動手試試
相關主題
- 完整委任方法論 -- 完整委任生命週期概觀
- 執行與報告 -- 依此處界定範疇執行
- 偵察與作業技巧 -- 範疇界定後隨之而來的偵察階段
- 自動化框架 -- 用於持續測試的 CART 方法論選擇
- 威脅建模 -- 結構化威脅分析,為範疇決策提供依據
參考資料
- NIST,"AI Risk Management Framework"(2023)-- 組織 AI 風險評估的聯邦框架
- OWASP,"LLM AI Security & Governance Checklist"(2025)-- LLM 安全評估的範疇界定檢核表
- Casper et al.,"Black-Box Access is Insufficient for Rigorous AI Audits"(2024)-- AI 評估存取層級的範疇界定考量
Knowledge Check
為什麼 AI 紅隊的交戰規則需要為模型輸出的處理設立特定政策?