完整紅隊委任：端對端

專家4 分鐘閱讀更新於 2026-03-11

自範圍至攻擊執行、證據蒐集、影響評估、報告遞送與補救驗證之 AI 紅隊委任完整指南。

engagement methodology rules-of-engagement attack-narrative business-impact remediation red-team

完整紅隊委任：端對端

AI 紅隊委任為評估完整 AI 系統——模型行為、應用整合、基礎設施安全與組織過程——對現實威脅情境之結構化對抗評估。本頁涵蓋自範圍至補救驗證之完整生命週期。

委任生命週期

Scoping & Planning → Rules of Engagement → Reconnaissance
       │                                        │
       ▼                                        ▼
   Threat Modeling ────▶ Attack Execution ◀─────┘
                              │
                              ▼
                Evidence Collection & Documentation
                              │
                              ▼
                Analysis & Impact Assessment
                              │
                              ▼
                Report Writing & Delivery
                              │
                              ▼
                Remediation Validation & Retest

階段 1：範圍與規劃

範圍定義檢核表

範圍元素	要回答之問題
模型層	哪些模型？微調或以 API 為本？權重可存取嗎？
應用層	網頁介面？API？行動？內部工具？
資料層	RAG 知識庫？訓練管線？使用者資料儲存？
基礎設施層	雲端提供者？內部 GPU？Kubernetes？模型服務？
整合層	LLM 可呼叫什麼工具？什麼外部服務？
人類層	AI 操作員之社交工程於範圍內？

委任類型

類型	目標	時程	團隊	可交付物
安全評估	對安全政策評估模型行為	1-2 週	1-2 研究者	配失敗模式之安全評估
應用安全評估	於 LLM 驅動之應用尋找漏洞	2-4 週	2-3 appsec + 1 LLM 專家	配 PoC exploit 之漏洞報告
完整紅隊	對完整系統模擬現實對手	4-8 週	3-5 跨功能	具業務影響之攻擊敘事
持續紅隊	於開發週期中之持續對抗測試	持續（季度）	2-3 嵌入	持續發現 + 季度報告

利害關係人對齊

於開始前，於這四個問題對齊：

成功準則 —— 越獄充足，或必須展示下游業務影響？
風險容忍 —— 展示實際資料外洩，或停於證明漏洞存在？
通訊節奏 —— 暫定報告多常？緊急升級過程為何？
環境約束 —— 生產 vs. 暫存？要避免之尖峰時段？資料敏感度等級？

階段 2：委任規則

標準 ROE 章節

授權
委任贊助者、授權日期、法律審查確認、特定授權範圍。
範圍邊界
明確於範圍內與範圍外清單。AI 特定排除：生產客戶資料（使用合成）、非組織擁有之第三方 API 服務。
測試約束
操作小時、速率限制（避免 DoS）、資料處理規則、持久性與橫向移動授權。
通訊
主要聯絡人、為去衝突之防禦團隊聯絡人、為關鍵發現之緊急聯絡人。
關鍵發現協定
嚴重性門檻定義、通知時程（例如關鍵為 4 小時）、加密通訊方法。
證據處理
加密儲存、存取控制、保留期、報告遞送後之銷毀過程。

AI 特定 ROE 條款

條款	要指定什麼
Token 預算	每會話最大 token 以防止成本失控
禁止提示	不允許之類別（例如 CSAM 相關內容）
輸出記錄	所有模型輸出必須被記錄供審查
知識庫注入	可／不可注入文件；所有測試資料必須可移除
訓練資料投毒	可／不可提交投毒資料；合成資料要求
模型完整性	可／不可修改權重或上傳 LoRA adapter；回滾計畫
有害內容處理	僅授權類別；加密儲存，報告後銷毀

階段 3：偵察

使用進階偵察模組之方法論：

模型辨識 —— 行為指紋識別、身分探測
系統提示提取 —— 自提取模組之技術
工具／函式列舉 —— 探測可用能力
RAG 系統偵測 —— 辨識知識庫來源
基礎設施指紋識別 —— 時序分析、錯誤訊息、標頭檢查

階段 4：攻擊執行

攻擊優先矩陣

	低可行性	高可行性
高影響	策略： sleeper agent、訓練投毒、權重後門	優先：提示注入、系統提示洩漏、輸出注入、RAG 投毒
低影響	去優先：側通道攻擊、時序攻擊	快速勝利：越獄、模型指紋識別、偏誤偵測

打造攻擊鏈

最具影響之發現為展示現實威脅情境之多步鏈：

Example: Data Exfiltration via RAG Poisoning
 
1. INITIAL ACCESS: RAG ingests from shared Confluence wiki
2. INJECTION: Create wiki page with embedded adversarial prompt
3. TRIGGER: Craft queries that retrieve the adversarial document
4. HIJACK: Retrieved content overrides system prompt, instructs
   LLM to include sensitive data as a "reference link"
5. EXFIL: LLM outputs image tag with query params containing
   sensitive data to attacker's server
6. IMPACT: Customer PII exfiltrated through AI assistant

證據蒐集

為每個動作，記錄：

時戳（UTC）
動作類型（偵察、注入、提取等）
目標與使用之技術
輸入資料（你送出什麼）
輸出資料（何返回）
證據檔案（截圖、捕獲）
成功／失敗決定
SHA-256 雜湊之記錄項以完整性驗證

階段 5：打造攻擊敘事

自發現至故事

業務影響框架

影響類別	要量化什麼
財務	補救成本、法規罰款、法律責任、營收影響
操作	服務中斷、恢復時間、重新訓練成本
聲譽	媒體報導風險、客戶信任侵蝕
合規	GDPR/CCPA/AI Act 違規、稽核發現
安全	自不正確醫療／法律／財務建議之使用者傷害

階段 6：報告遞送

關於範本與結構，見專用報告寫作指南。

遞送協定

草案遞送
加密草案至委任贊助者。
技術審查
與安全團隊之 1-2 小時會議。
事實驗證
為準確度審查之 3-5 個工作日。
執行層簡報
對領導層之 30-60 分鐘簡報。
最終報告
以所有修正納入遞送。
補救工作坊
半日協作規劃會話。
重測排程
排定實作修復之驗證。

階段 7：補救驗證

重測方法論

重播原 exploit
嘗試自報告之確切原 exploit。驗證其現被阻擋。
測試繞過變化
生成原攻擊之變化（不同編碼、措辭、多輪）。驗證修復穩健，非僅模式匹配特定 payload。
分類補救狀態
REMEDIATED = 原 + 所有繞過被阻擋。PARTIALLY REMEDIATED = 原被阻擋但繞過成功。NOT REMEDIATED = 原 exploit 仍運作。
建立回歸測試
將成功 exploit 轉為自動化回歸測試。與 CART 管線整合以持續監控。

參考資料

MITRE ATLAS —— 為委任規劃之 AI 威脅知識庫
OWASP Top 10 for LLM Applications —— 為發現之漏洞分類
NIST AI Risk Management Framework (AI RMF 1.0, 2023) —— 為 AI 委任範圍之風險框架

完整紅隊委任：端對端

專家4 分鐘閱讀更新於 2026-03-11

自範圍至攻擊執行、證據蒐集、影響評估、報告遞送與補救驗證之 AI 紅隊委任完整指南。

engagement methodology rules-of-engagement attack-narrative business-impact remediation red-team

完整紅隊委任：端對端

委任生命週期

Scoping & Planning → Rules of Engagement → Reconnaissance
       │                                        │
       ▼                                        ▼
   Threat Modeling ────▶ Attack Execution ◀─────┘
                              │
                              ▼
                Evidence Collection & Documentation
                              │
                              ▼
                Analysis & Impact Assessment
                              │
                              ▼
                Report Writing & Delivery
                              │
                              ▼
                Remediation Validation & Retest

階段 1：範圍與規劃

範圍定義檢核表

範圍元素	要回答之問題
模型層	哪些模型？微調或以 API 為本？權重可存取嗎？
應用層	網頁介面？API？行動？內部工具？
資料層	RAG 知識庫？訓練管線？使用者資料儲存？
基礎設施層	雲端提供者？內部 GPU？Kubernetes？模型服務？
整合層	LLM 可呼叫什麼工具？什麼外部服務？
人類層	AI 操作員之社交工程於範圍內？

委任類型

類型	目標	時程	團隊	可交付物
安全評估	對安全政策評估模型行為	1-2 週	1-2 研究者	配失敗模式之安全評估
應用安全評估	於 LLM 驅動之應用尋找漏洞	2-4 週	2-3 appsec + 1 LLM 專家	配 PoC exploit 之漏洞報告
完整紅隊	對完整系統模擬現實對手	4-8 週	3-5 跨功能	具業務影響之攻擊敘事
持續紅隊	於開發週期中之持續對抗測試	持續（季度）	2-3 嵌入	持續發現 + 季度報告

利害關係人對齊

於開始前，於這四個問題對齊：

成功準則 —— 越獄充足，或必須展示下游業務影響？
風險容忍 —— 展示實際資料外洩，或停於證明漏洞存在？
通訊節奏 —— 暫定報告多常？緊急升級過程為何？
環境約束 —— 生產 vs. 暫存？要避免之尖峰時段？資料敏感度等級？

階段 2：委任規則

標準 ROE 章節

授權
委任贊助者、授權日期、法律審查確認、特定授權範圍。
範圍邊界
明確於範圍內與範圍外清單。AI 特定排除：生產客戶資料（使用合成）、非組織擁有之第三方 API 服務。
測試約束
操作小時、速率限制（避免 DoS）、資料處理規則、持久性與橫向移動授權。
通訊
主要聯絡人、為去衝突之防禦團隊聯絡人、為關鍵發現之緊急聯絡人。
關鍵發現協定
嚴重性門檻定義、通知時程（例如關鍵為 4 小時）、加密通訊方法。
證據處理
加密儲存、存取控制、保留期、報告遞送後之銷毀過程。

AI 特定 ROE 條款

條款	要指定什麼
Token 預算	每會話最大 token 以防止成本失控
禁止提示	不允許之類別（例如 CSAM 相關內容）
輸出記錄	所有模型輸出必須被記錄供審查
知識庫注入	可／不可注入文件；所有測試資料必須可移除
訓練資料投毒	可／不可提交投毒資料；合成資料要求
模型完整性	可／不可修改權重或上傳 LoRA adapter；回滾計畫
有害內容處理	僅授權類別；加密儲存，報告後銷毀

階段 3：偵察

使用進階偵察模組之方法論：

模型辨識 —— 行為指紋識別、身分探測
系統提示提取 —— 自提取模組之技術
工具／函式列舉 —— 探測可用能力
RAG 系統偵測 —— 辨識知識庫來源
基礎設施指紋識別 —— 時序分析、錯誤訊息、標頭檢查

階段 4：攻擊執行

攻擊優先矩陣

	低可行性	高可行性
高影響	策略： sleeper agent、訓練投毒、權重後門	優先：提示注入、系統提示洩漏、輸出注入、RAG 投毒
低影響	去優先：側通道攻擊、時序攻擊	快速勝利：越獄、模型指紋識別、偏誤偵測

打造攻擊鏈

最具影響之發現為展示現實威脅情境之多步鏈：

Example: Data Exfiltration via RAG Poisoning
 
1. INITIAL ACCESS: RAG ingests from shared Confluence wiki
2. INJECTION: Create wiki page with embedded adversarial prompt
3. TRIGGER: Craft queries that retrieve the adversarial document
4. HIJACK: Retrieved content overrides system prompt, instructs
   LLM to include sensitive data as a "reference link"
5. EXFIL: LLM outputs image tag with query params containing
   sensitive data to attacker's server
6. IMPACT: Customer PII exfiltrated through AI assistant

證據蒐集

為每個動作，記錄：

時戳（UTC）
動作類型（偵察、注入、提取等）
目標與使用之技術
輸入資料（你送出什麼）
輸出資料（何返回）
證據檔案（截圖、捕獲）
成功／失敗決定
SHA-256 雜湊之記錄項以完整性驗證

階段 5：打造攻擊敘事

自發現至故事

業務影響框架

影響類別	要量化什麼
財務	補救成本、法規罰款、法律責任、營收影響
操作	服務中斷、恢復時間、重新訓練成本
聲譽	媒體報導風險、客戶信任侵蝕
合規	GDPR/CCPA/AI Act 違規、稽核發現
安全	自不正確醫療／法律／財務建議之使用者傷害

階段 6：報告遞送

關於範本與結構，見專用報告寫作指南。

遞送協定

草案遞送
加密草案至委任贊助者。
技術審查
與安全團隊之 1-2 小時會議。
事實驗證
為準確度審查之 3-5 個工作日。
執行層簡報
對領導層之 30-60 分鐘簡報。
最終報告
以所有修正納入遞送。
補救工作坊
半日協作規劃會話。
重測排程
排定實作修復之驗證。

階段 7：補救驗證

重測方法論

重播原 exploit
嘗試自報告之確切原 exploit。驗證其現被阻擋。
測試繞過變化
生成原攻擊之變化（不同編碼、措辭、多輪）。驗證修復穩健，非僅模式匹配特定 payload。
分類補救狀態
REMEDIATED = 原 + 所有繞過被阻擋。PARTIALLY REMEDIATED = 原被阻擋但繞過成功。NOT REMEDIATED = 原 exploit 仍運作。
建立回歸測試
將成功 exploit 轉為自動化回歸測試。與 CART 管線整合以持續監控。

參考資料

MITRE ATLAS —— 為委任規劃之 AI 威脅知識庫
OWASP Top 10 for LLM Applications —— 為發現之漏洞分類
NIST AI Risk Management Framework (AI RMF 1.0, 2023) —— 為 AI 委任範圍之風險框架

完整紅隊委任：端對端

授權

範圍邊界

測試約束

通訊

關鍵發現協定

證據處理

草案遞送

技術審查

事實驗證

執行層簡報

最終報告

補救工作坊

重測排程

重播原 exploit

測試繞過變化

分類補救狀態

建立回歸測試

學習路徑

相關文章

完整紅隊委任：端對端

授權

範圍邊界

測試約束

通訊

關鍵發現協定

證據處理

草案遞送

技術審查

事實驗證

執行層簡報

最終報告

補救工作坊

重測排程

重播原 exploit

測試繞過變化

分類補救狀態

建立回歸測試

學習路徑

相關文章