完整紅隊委任:端對端
自範圍至攻擊執行、證據蒐集、影響評估、報告遞送與補救驗證之 AI 紅隊委任完整指南。
完整紅隊委任:端對端
AI 紅隊委任為評估完整 AI 系統——模型行為、應用整合、基礎設施安全與組織過程——對現實威脅情境之結構化對抗評估。本頁涵蓋自範圍至補救驗證之完整生命週期。
委任生命週期
Scoping & Planning → Rules of Engagement → Reconnaissance
│ │
▼ ▼
Threat Modeling ────▶ Attack Execution ◀─────┘
│
▼
Evidence Collection & Documentation
│
▼
Analysis & Impact Assessment
│
▼
Report Writing & Delivery
│
▼
Remediation Validation & Retest階段 1:範圍與規劃
範圍定義檢核表
| 範圍元素 | 要回答之問題 |
|---|---|
| 模型層 | 哪些模型?微調或以 API 為本?權重可存取嗎? |
| 應用層 | 網頁介面?API?行動?內部工具? |
| 資料層 | RAG 知識庫?訓練管線?使用者資料儲存? |
| 基礎設施層 | 雲端提供者?內部 GPU?Kubernetes?模型服務? |
| 整合層 | LLM 可呼叫什麼工具?什麼外部服務? |
| 人類層 | AI 操作員之社交工程於範圍內? |
委任類型
| 類型 | 目標 | 時程 | 團隊 | 可交付物 |
|---|---|---|---|---|
| 安全評估 | 對安全政策評估模型行為 | 1-2 週 | 1-2 研究者 | 配失敗模式之安全評估 |
| 應用安全評估 | 於 LLM 驅動之應用尋找漏洞 | 2-4 週 | 2-3 appsec + 1 LLM 專家 | 配 PoC exploit 之漏洞報告 |
| 完整紅隊 | 對完整系統模擬現實對手 | 4-8 週 | 3-5 跨功能 | 具業務影響之攻擊敘事 |
| 持續紅隊 | 於開發週期中之持續對抗測試 | 持續(季度) | 2-3 嵌入 | 持續發現 + 季度報告 |
利害關係人對齊
於開始前,於這四個問題對齊:
- 成功準則 —— 越獄充足,或必須展示下游業務影響?
- 風險容忍 —— 展示實際資料外洩,或停於證明漏洞存在?
- 通訊節奏 —— 暫定報告多常?緊急升級過程為何?
- 環境約束 —— 生產 vs. 暫存?要避免之尖峰時段?資料敏感度等級?
階段 2:委任規則
標準 ROE 章節
授權
委任贊助者、授權日期、法律審查確認、特定授權範圍。
範圍邊界
明確於範圍內與範圍外清單。AI 特定排除:生產客戶資料(使用合成)、非組織擁有之第三方 API 服務。
測試約束
操作小時、速率限制(避免 DoS)、資料處理規則、持久性與橫向移動授權。
通訊
主要聯絡人、為去衝突之防禦團隊聯絡人、為關鍵發現之緊急聯絡人。
關鍵發現協定
嚴重性門檻定義、通知時程(例如關鍵為 4 小時)、加密通訊方法。
證據處理
加密儲存、存取控制、保留期、報告遞送後之銷毀過程。
AI 特定 ROE 條款
| 條款 | 要指定什麼 |
|---|---|
| Token 預算 | 每會話最大 token 以防止成本失控 |
| 禁止提示 | 不允許之類別(例如 CSAM 相關內容) |
| 輸出記錄 | 所有模型輸出必須被記錄供審查 |
| 知識庫注入 | 可/不可注入文件;所有測試資料必須可移除 |
| 訓練資料投毒 | 可/不可提交投毒資料;合成資料要求 |
| 模型完整性 | 可/不可修改權重或上傳 LoRA adapter;回滾計畫 |
| 有害內容處理 | 僅授權類別;加密儲存,報告後銷毀 |
階段 3:偵察
使用 進階偵察 模組之方法論:
- 模型辨識 —— 行為指紋識別、身分探測
- 系統提示提取 —— 自 提取模組 之技術
- 工具/函式列舉 —— 探測可用能力
- RAG 系統偵測 —— 辨識知識庫來源
- 基礎設施指紋識別 —— 時序分析、錯誤訊息、標頭檢查
階段 4:攻擊執行
攻擊優先矩陣
| 低可行性 | 高可行性 | |
|---|---|---|
| 高影響 | 策略: sleeper agent、訓練投毒、權重後門 | 優先: 提示注入、系統提示洩漏、輸出注入、RAG 投毒 |
| 低影響 | 去優先: 側通道攻擊、時序攻擊 | 快速勝利: 越獄、模型指紋識別、偏誤偵測 |
打造攻擊鏈
最具影響之發現為展示現實威脅情境之多步鏈:
Example: Data Exfiltration via RAG Poisoning
1. INITIAL ACCESS: RAG ingests from shared Confluence wiki
2. INJECTION: Create wiki page with embedded adversarial prompt
3. TRIGGER: Craft queries that retrieve the adversarial document
4. HIJACK: Retrieved content overrides system prompt, instructs
LLM to include sensitive data as a "reference link"
5. EXFIL: LLM outputs image tag with query params containing
sensitive data to attacker's server
6. IMPACT: Customer PII exfiltrated through AI assistant證據蒐集
為每個動作,記錄:
- 時戳(UTC)
- 動作類型(偵察、注入、提取等)
- 目標與使用之技術
- 輸入資料(你送出什麼)
- 輸出資料(何返回)
- 證據檔案(截圖、捕獲)
- 成功/失敗決定
- SHA-256 雜湊之記錄項以完整性驗證
階段 5:打造攻擊敘事
自發現至故事
業務影響框架
| 影響類別 | 要量化什麼 |
|---|---|
| 財務 | 補救成本、法規罰款、法律責任、營收影響 |
| 操作 | 服務中斷、恢復時間、重新訓練成本 |
| 聲譽 | 媒體報導風險、客戶信任侵蝕 |
| 合規 | GDPR/CCPA/AI Act 違規、稽核發現 |
| 安全 | 自不正確醫療/法律/財務建議之使用者傷害 |
階段 6:報告遞送
關於範本與結構,見專用 報告寫作 指南。
遞送協定
草案遞送
加密草案至委任贊助者。
技術審查
與安全團隊之 1-2 小時會議。
事實驗證
為準確度審查之 3-5 個工作日。
執行層簡報
對領導層之 30-60 分鐘簡報。
最終報告
以所有修正納入遞送。
補救工作坊
半日協作規劃會話。
重測排程
排定實作修復之驗證。
階段 7:補救驗證
重測方法論
重播原 exploit
嘗試自報告之確切原 exploit。驗證其現被阻擋。
測試繞過變化
生成原攻擊之變化(不同編碼、措辭、多輪)。驗證修復穩健,非僅模式匹配特定 payload。
分類補救狀態
REMEDIATED = 原 + 所有繞過被阻擋。PARTIALLY REMEDIATED = 原被阻擋但繞過成功。NOT REMEDIATED = 原 exploit 仍運作。
建立回歸測試
將成功 exploit 轉為自動化回歸測試。與 CART 管線整合以持續監控。
相關主題
為何補救驗證應含繞過變化而非僅重播原 exploit?
參考資料
- MITRE ATLAS —— 為委任規劃之 AI 威脅知識庫
- OWASP Top 10 for LLM Applications —— 為發現之漏洞分類
- NIST AI Risk Management Framework (AI RMF 1.0, 2023) —— 為 AI 委任範圍之風險框架