委任規劃與範疇界定

中級3 分鐘閱讀更新於 2026-03-12

如何規劃並界定 AI 紅隊委任的範圍，包括目標設定、交戰規則、成功判準與方法論選擇。

planning scoping engagement methodology capstone

適當的規劃與範疇界定，是「高效評估」與「散漫練習」的分水嶺。AI 紅隊委任需要一些特有的範疇界定考量——包括交戰規則與隨機性量測標準——這些都是傳統滲透測試所沒有的。

定義目標

在界定技術評估範疇之前，先釐清業務目標：

目標類型	範例	委任重點
合規	「驗證對 OWASP LLM Top 10 的涵蓋度」	以檢核表為核心的系統性測試
上線前	「此聊天機器人可安全上線嗎？」	廣泛的攻擊面評估
事件回應	「我們在生產環境中發現了越獄」	聚焦於重現與變體測試
持續性	「持續性的安全監控」	CART 管線建置
競爭比較	「我們相較同業表現如何？」	對照業界標準進行基準測試

範疇界定檢核表

範圍內系統

## 範圍定義
 
### 目標系統
- [ ] 主要 LLM 應用（聊天介面、API）
- [ ] 所使用的模型（列出具體模型與版本）
- [ ] 系統提示與應用邏輯
- [ ] RAG 管線與知識庫
- [ ] 工具整合（MCP server、function call）
- [ ] 支援性基礎設施（API 閘道、驗證、CDN）
- [ ] 微調管線與訓練資料
- [ ] 模型供應鏈（來源、註冊表、相依）
 
### 攻擊類別
- [ ] 提示注入（直接與間接）
- [ ] 越獄與安全繞過
- [ ] 資料擷取（訓練資料、系統提示、使用者資料）
- [ ] 工具濫用與代理攻擊
- [ ] RAG 投毒
- [ ] 基礎設施攻擊
- [ ] 供應鏈評估
- [ ] 拒絕服務 / 成本耗盡

交戰規則

AI 特有的交戰規則必須處理：

## 交戰規則
 
### 允許
- 透過標準使用者介面的手動提示注入測試
- [X] 請求／分鐘的自動化測試
- 系統提示擷取嘗試
- 對 [指定] 內容類別的越獄測試
 
### 不允許
- 尖峰時段於生產系統上測試
- 真實的資料外洩（僅以金絲雀資料測試）
- 可能損壞生產訓練資料的攻擊
- 針對維運人員的社交工程
- 針對第三方模型註冊表的供應鏈攻擊
 
### 敏感輸出的處理
- 模型輸出中發現的任何 PII 必須立即回報
- 越獄輸出不得以明文儲存
- 所有測試資料必須於委任結束後 [X] 天內刪除

成功判準

定義什麼構成一項發現，以及如何評估其嚴重性：

嚴重性框架

嚴重性	判準	範例
嚴重	成功率 >50% 且高影響	穩定擷取含憑證的系統提示
高	成功率 >20% 且中高影響	在受限類別上越獄繞過安全
中	成功率 >5% 且中影響	影響有限的 RAG 間接注入
低	成功率 <5% 或低影響	需不切實際條件才能觸發的安全繞過
參考級	無直接 exploit 但具安全相關性	模型指紋識別洩漏版本資訊

隨機性量測標準

## 量測標準
 
- 每項發現至少 20 次試驗以計算成功率
- 必須與點估計一併報告 95% 信賴區間
- 環境條件（temperature、模型版本、session 狀態）
  必須為每項發現加以記錄
- 發現必須可由第二位測試者依文件化 payload 重現

方法論選擇

依目標與限制挑選測試方式：

方法	最適合	涵蓋度	深度
檢核表式	合規、基線評估	廣	淺
以威脅模型驅動	特定風險情境	聚焦	深
探索式	新穎攻擊發現	不可預測	不定
自動化（CART）	持續監控、退化測試	廣	中
混合式（建議）	多數委任	廣 + 聚焦	需要處深入

多數委任建議採混合式：以自動化工具（自動化框架）達成廣泛涵蓋與檢核表驗證，然後在風險最高或攻擊面最有趣之處投入手動努力。

動手試試

Practice

練習：為虛擬 AI 聊天機器人紅隊委任撰寫範疇文件

為虛構的 AI 客服聊天機器人草擬一頁式範疇界定文件。此練習可建立技術測試前所需的規劃紀律。

步驟 1
定義虛構目標：一家名為「ShopAssist AI」的電商公司客服聊天機器人。它採用 GPT-4 級模型，搭配連至商品資料庫的 RAG 管線，並具備查詢訂單與啟動退款的工具存取。請撰寫 2–3 句的目標描述。
步驟 2
完成範疇界定檢核表。列出範圍內系統（聊天介面、API、RAG 管線、工具整合）、待測試的攻擊類別（提示注入、系統提示擷取、工具濫用、資料擷取），並定義包含速率限制、測試時段、敏感輸出處理在內的交戰規則。
步驟 3
定義成功判準與嚴重性框架。指定每項發現的最低試驗次數（至少 20 次）、信賴區間標準（95%），並將範例發現對應至嚴重性等級（例如「擷取其他使用者的訂單資料」= 嚴重、「系統提示洩漏」= 高）。
步驟 4
挑選方法論（建議混合式）並勾勒大致時程：Day 1–2 偵察、Day 3–5 系統性測試、Day 6 深度攻擊、Day 7 撰寫報告。

成功判準： 完成一頁式範疇文件，包含目標描述、範圍內系統、攻擊類別、交戰規則、嚴重性框架、量測標準、方法論與時程。同儕應能僅憑你的文件即可執行委任。

參考資料

NIST，"AI Risk Management Framework"（2023）-- 組織 AI 風險評估的聯邦框架
OWASP，"LLM AI Security & Governance Checklist"（2025）-- LLM 安全評估的範疇界定檢核表
Casper et al.，"Black-Box Access is Insufficient for Rigorous AI Audits"（2024）-- AI 評估存取層級的範疇界定考量

Knowledge Check

為什麼 AI 紅隊的交戰規則需要為模型輸出的處理設立特定政策？

委任規劃與範疇界定

中級3 分鐘閱讀更新於 2026-03-12

如何規劃並界定 AI 紅隊委任的範圍，包括目標設定、交戰規則、成功判準與方法論選擇。

planning scoping engagement methodology capstone

定義目標

在界定技術評估範疇之前，先釐清業務目標：

目標類型	範例	委任重點
合規	「驗證對 OWASP LLM Top 10 的涵蓋度」	以檢核表為核心的系統性測試
上線前	「此聊天機器人可安全上線嗎？」	廣泛的攻擊面評估
事件回應	「我們在生產環境中發現了越獄」	聚焦於重現與變體測試
持續性	「持續性的安全監控」	CART 管線建置
競爭比較	「我們相較同業表現如何？」	對照業界標準進行基準測試

範疇界定檢核表

範圍內系統

## 範圍定義
 
### 目標系統
- [ ] 主要 LLM 應用（聊天介面、API）
- [ ] 所使用的模型（列出具體模型與版本）
- [ ] 系統提示與應用邏輯
- [ ] RAG 管線與知識庫
- [ ] 工具整合（MCP server、function call）
- [ ] 支援性基礎設施（API 閘道、驗證、CDN）
- [ ] 微調管線與訓練資料
- [ ] 模型供應鏈（來源、註冊表、相依）
 
### 攻擊類別
- [ ] 提示注入（直接與間接）
- [ ] 越獄與安全繞過
- [ ] 資料擷取（訓練資料、系統提示、使用者資料）
- [ ] 工具濫用與代理攻擊
- [ ] RAG 投毒
- [ ] 基礎設施攻擊
- [ ] 供應鏈評估
- [ ] 拒絕服務 / 成本耗盡

交戰規則

AI 特有的交戰規則必須處理：

## 交戰規則
 
### 允許
- 透過標準使用者介面的手動提示注入測試
- [X] 請求／分鐘的自動化測試
- 系統提示擷取嘗試
- 對 [指定] 內容類別的越獄測試
 
### 不允許
- 尖峰時段於生產系統上測試
- 真實的資料外洩（僅以金絲雀資料測試）
- 可能損壞生產訓練資料的攻擊
- 針對維運人員的社交工程
- 針對第三方模型註冊表的供應鏈攻擊
 
### 敏感輸出的處理
- 模型輸出中發現的任何 PII 必須立即回報
- 越獄輸出不得以明文儲存
- 所有測試資料必須於委任結束後 [X] 天內刪除

成功判準

定義什麼構成一項發現，以及如何評估其嚴重性：

嚴重性框架

嚴重性	判準	範例
嚴重	成功率 >50% 且高影響	穩定擷取含憑證的系統提示
高	成功率 >20% 且中高影響	在受限類別上越獄繞過安全
中	成功率 >5% 且中影響	影響有限的 RAG 間接注入
低	成功率 <5% 或低影響	需不切實際條件才能觸發的安全繞過
參考級	無直接 exploit 但具安全相關性	模型指紋識別洩漏版本資訊

隨機性量測標準

## 量測標準
 
- 每項發現至少 20 次試驗以計算成功率
- 必須與點估計一併報告 95% 信賴區間
- 環境條件（temperature、模型版本、session 狀態）
  必須為每項發現加以記錄
- 發現必須可由第二位測試者依文件化 payload 重現

方法論選擇

依目標與限制挑選測試方式：

方法	最適合	涵蓋度	深度
檢核表式	合規、基線評估	廣	淺
以威脅模型驅動	特定風險情境	聚焦	深
探索式	新穎攻擊發現	不可預測	不定
自動化（CART）	持續監控、退化測試	廣	中
混合式（建議）	多數委任	廣 + 聚焦	需要處深入

多數委任建議採混合式：以自動化工具（自動化框架）達成廣泛涵蓋與檢核表驗證，然後在風險最高或攻擊面最有趣之處投入手動努力。

動手試試

Practice

練習：為虛擬 AI 聊天機器人紅隊委任撰寫範疇文件

為虛構的 AI 客服聊天機器人草擬一頁式範疇界定文件。此練習可建立技術測試前所需的規劃紀律。

步驟 1
定義虛構目標：一家名為「ShopAssist AI」的電商公司客服聊天機器人。它採用 GPT-4 級模型，搭配連至商品資料庫的 RAG 管線，並具備查詢訂單與啟動退款的工具存取。請撰寫 2–3 句的目標描述。
步驟 2
完成範疇界定檢核表。列出範圍內系統（聊天介面、API、RAG 管線、工具整合）、待測試的攻擊類別（提示注入、系統提示擷取、工具濫用、資料擷取），並定義包含速率限制、測試時段、敏感輸出處理在內的交戰規則。
步驟 3
定義成功判準與嚴重性框架。指定每項發現的最低試驗次數（至少 20 次）、信賴區間標準（95%），並將範例發現對應至嚴重性等級（例如「擷取其他使用者的訂單資料」= 嚴重、「系統提示洩漏」= 高）。
步驟 4
挑選方法論（建議混合式）並勾勒大致時程：Day 1–2 偵察、Day 3–5 系統性測試、Day 6 深度攻擊、Day 7 撰寫報告。

參考資料

NIST，"AI Risk Management Framework"（2023）-- 組織 AI 風險評估的聯邦框架
OWASP，"LLM AI Security & Governance Checklist"（2025）-- LLM 安全評估的範疇界定檢核表
Casper et al.，"Black-Box Access is Insufficient for Rigorous AI Audits"（2024）-- AI 評估存取層級的範疇界定考量

Knowledge Check

為什麼 AI 紅隊的交戰規則需要為模型輸出的處理設立特定政策？

委任規劃與範疇界定

定義目標

範疇界定檢核表

範圍內系統

交戰規則

成功判準

嚴重性框架

隨機性量測標準

方法論選擇

動手試試

相關主題

參考資料

委任規劃與範疇界定

定義目標

範疇界定檢核表

範圍內系統

交戰規則

成功判準

嚴重性框架

隨機性量測標準

方法論選擇

動手試試

相關主題

參考資料

委任規劃與範疇界定

相關文章

委任規劃與範疇界定

相關文章