專業實務學習指南
中級4 分鐘閱讀更新於 2026-03-15
涵蓋 AI 紅隊方法論、作業管理、報告撰寫、治理框架與專業倫理的學習指南。
專業實務學習指南
本指南涵蓋 AI 紅隊演練的專業面:如何規劃與執行作業、撰寫有效報告、因應治理框架並維持倫理標準。支援治理與專業技能評估的準備。
作業方法論
專業 AI 紅隊作業採結構化方法,確保完整性、法律保障與可執行結果。
作業生命週期
| 階段 | 關鍵活動 | 交付物 |
|---|---|---|
| 作業前準備 | 範圍界定、交戰規則(RoE)、法律授權、團隊組建 | 已簽署範圍文件、RoE、授權書 |
| 偵查 | 系統提示詞萃取、模型指紋識別、能力梳理、信任邊界辨識 | 架構圖、威脅模型、攻擊面清單 |
| 威脅建模 | 依元件辨識威脅、依影響與可利用性排序 | 排序後威脅矩陣、測試計畫 |
| 實際測試 | 依類別執行攻擊、記錄所有測試案例、依發現迭代 | 測試日誌、原始發現 |
| 分析 | 依嚴重度分類發現、判定根因、發展補救方案 | 附嚴重度評級的發現草稿 |
| 報告撰寫 | 撰寫報告、同儕審閱、執行摘要、技術細節 | 最終報告 |
| 結案簡報 | 向利害關係人報告發現、回答問題、規劃補救 | 簡報紀要、補救追蹤 |
| 複測 | 驗證補救、測試迴歸 | 複測報告 |
範圍界定最佳實務
範圍文件是作業的基礎。應具體到能防止爭議,又具彈性以追尋有趣線索。
必含要素:
- 目標系統架構(模型供應商、版本、編排框架、連接工具、資料來源)
- 在範圍內的攻擊類別(提示詞注入、越獄、資料萃取、代理利用等)
- 明確排除項(具真實使用者的生產系統、特定技巧、範圍外基礎設施)
- 交戰規則(測試時段、升級聯絡窗口、資料處理、緊急程序)
- 成功準則(何者構成發現、回報的嚴重度門檻)
- 交付物與時程
- 具法律權限者簽署的書面授權
常見範圍錯誤:
- 範圍太廣(「測試一切」)而無優先順序
- 未指定哪個模型版本與組態在範圍內
- 未處理作業期間模型版本變更如何應對
- 遺漏意外發現 PII 時的資料處理程序
- 未建立溝通頻率與升級路徑
交戰規則
交戰規則界定作業邊界,保護紅隊與客戶雙方。
| RoE 要素 | 目的 | 範例 |
|---|---|---|
| 授權目標 | 法律保障、防止範圍擴張 | 「測試僅限於 chat-staging.example.com 的客戶聊天機器人測試環境」 |
| 禁止技巧 | 避免不可接受風險 | 「不得對服務真實使用者的生產端點測試;不得對員工社交工程」 |
| 測試時段 | 減少運作影響 | 「允許測試時間為 EST 09:00-18:00、週一至週五;季度董事會報告期間不得測試」 |
| 資料處理 | 保護發現的敏感資料 | 「遇到任何 PII 將立即通報安全聯絡人且不儲存於測試日誌」 |
| 升級聯絡窗口 | 確保對重大發現的快速回應 | 「重大發現:致電 [姓名] [電話];非重大:24 小時內寄信至 [地址]」 |
| 溝通 | 讓利害關係人同步 | 「每日 Slack 狀態更新、週會電話、最終簡報」 |
AI 系統威脅建模
威脅建模應在範圍界定後、實際測試前執行,指引測試重心。
套用於 AI 系統的 STRIDE
| STRIDE 類別 | AI 專屬範例 |
|---|---|
| Spoofing(偽冒) | 冒充授權使用者或系統、偽造工具呼叫回應、偽冒 MCP 伺服器身分 |
| Tampering(竄改) | 訓練資料投毒、修改 RAG 文件、傳輸中改動模型產物 |
| Repudiation(否認) | 提示/回應配對日誌不足、缺乏模型決策稽核軌跡 |
| Information Disclosure(資訊揭露) | 系統提示詞洩漏、訓練資料萃取、模型輸出中的 PII、嵌入反演 |
| Denial of Service(阻斷服務) | 資源耗竭提示、上下文視窗灌爆、無限工具呼叫迴圈 |
| Elevation of Privilege(權限提升) | 提示詞注入取得工具存取、跨代理升級、繞過角色型護欄 |
信任邊界分析
辨識信任邊界至關重要。每個不受信任資料進入系統的點都是潛在注入面:
- 使用者輸入至模型:主要的直接注入面
- 檢索文件至模型:透過 RAG 的間接注入
- 工具輸出至模型:透過工具回應的間接注入
- 跨代理訊息:多代理系統中的橫向注入
- 模型輸出至下游系統:不安全輸出處理
- 外部 API 至編排層:供應鏈與整合風險
報告撰寫
報告為主要交付物。好的報告將技術發現轉譯為針對多個受眾的可行情報。
報告結構
| 章節 | 受眾 | 內容 |
|---|---|---|
| 執行摘要 | 高階主管、法務、合規 | 業務影響、風險等級、關鍵發現(不用技術術語)、戰略建議 |
| 方法論 | 技術主管、稽核 | 做法、範圍、使用工具、參考框架(ATLAS、OWASP)、限制 |
| 發現 | 工程師、安全團隊 | 具嚴重度的詳細發現、重現步驟、根因、補救 |
| 負面結果 | 安全團隊、稽核 | 測試過但被成功防禦的攻擊類別,建立覆蓋率基線 |
| 建議 | 工程、管理 | 排序後的補救路線圖、速效 vs. 結構改善 |
| 附錄 | 工程師 | 原始測試日誌、完整提示/回應序列、工具設定 |
發現格式
每項發現應遵循一致結構:
標題:[敘述性名稱]
ID:[唯一識別碼]
嚴重度:[Critical/High/Medium/Low/Informational]
OWASP LLM:[LLM01-LLM10 對應]
MITRE ATLAS:[技巧 ID]
說明:漏洞為何,以及為何重要。
業務影響:攻擊者可達成什麼,以及對組織的後果。
重現步驟:
1. [含精確輸入的詳細步驟]
2. [預期的模型回應]
3. [下一步……]
證據:[截圖、完整提示/回應日誌]
根因:漏洞在技術層面為何存在。
補救:具體、可實施的建議。
驗證:如何確認修補生效。
嚴重度分類
採用一致且考量多個因素的評分:
| 因素 | Critical | High | Medium | Low |
|---|---|---|---|---|
| 可利用性 | 單一提示、無前置條件 | 少量輪次、最少前置條件 | 需特定條件 | 複雜、不穩定 |
| 影響 | RCE、完整資料存取、憑證竊取 | PII 洩漏、重大政策繞過 | 中度政策繞過、偏題回應 | 輕微行為偏差 |
| 範圍 | 所有使用者、所有情境 | 多數使用者或廣泛情境 | 特定使用者情境 | 邊界案例 |
| 緩解控制 | 無有效 | 部分有效 | 有重大緩解 | 有強力緩解 |
常見報告撰寫錯誤
治理框架
AI 紅隊演練者必須理解治理環境,才能把發現放在情境中並與合規利害關係人溝通。
框架比較
| 框架 | 類型 | 範圍 | 關鍵特性 | 與紅隊演練相關性 |
|---|---|---|---|---|
| NIST AI RMF | 自願框架 | 所有 AI 系統 | 四項功能:治理、梳理、衡量、管理 | 紅隊演練是衡量(Measure)功能的關鍵活動 |
| EU AI Act | 強制法規 | 於歐盟部署/影響歐盟的 AI 系統 | 風險分級、對高風險強制要求 | 紅隊演練支援符合性評鑑 |
| ISO/IEC 42001 | 可驗證標準 | 部署 AI 的組織 | AI 管理系統要求 | 為處理發現提供治理結構 |
| OWASP LLM Top 10 | 產業指引 | LLM 型應用 | 含緩解的排序風險清單 | 發現的主要技術分類 |
| MITRE ATLAS | 知識庫 | ML/AI 系統 | 對手 TTP 矩陣 | 攻擊分類與覆蓋率追蹤 |
風險管理流程
理解紅隊發現如何流經治理:
- 紅隊作業期間辨識發現
- 以一致評分分類嚴重度
- 映射至框架(OWASP、ATLAS、法規要求)
- 透過報告與結案簡報溝通至利害關係人
- 帶負責人、時程與接受準則登入風險登記簿
- 由工程團隊在 SLA 內補救
- 由紅隊透過複測驗證
- 透過治理審查週期追蹤
- 若仍有殘留風險,由具權限者接受並記錄理由
倫理與專業行為
倫理邊界
AI 紅隊演練的倫理挑戰超越傳統滲透測試:
| 挑戰 | 傳統滲透測試 | AI 紅隊演練 |
|---|---|---|
| 有害內容 | 少有直接產生 | 成功越獄會產出真正有害文字,需負責任處理 |
| 技巧可攜性 | 利用需技術功力複製 | 提示型攻擊任何人皆可輕易複製貼上 |
| 偏見暴露 | 通常不相關 | 測試可能揭露影響真實族群的偏見 |
| 雙用途風險 | 中等——利用有特定目標 | 高——攻擊提示跨模型家族皆有效 |
| 研究者身心健康 | 某些情境有實體安全顧慮 | 重複接觸有害內容的心理影響 |
專業標準
- 授權:未取得書面授權不得測試。範圍文件在法律上保護你。
- 資料處理:依議定程序處理 PII 與敏感資料。不確定時寧可不儲存。
- 負責任揭露:發表研究時平衡透明與避免傷害。
- 保密:除非另有明確約定,客戶發現屬機密。
- 誠實回報:回報實際發現與限制,不誇大也不縮水。
- 持續學習:領域演變迅速,透過研究、社群與實作保持更新。
- 同事身心:留意接觸有害內容的二次壓力徵兆,令人特別煩擾的測試應輪替團隊成員。
常見陷阱
學習檢查清單
挑戰治理與專業技能評估前,請確認能:
- 說明從範圍界定到複測的完整作業生命週期
- 以標準格式撰寫含所有必要元件的發現
- 以多因素評分表分類發現嚴重度
- 說明紅隊報告各章節的目的
- 列舉三個治理框架及其與紅隊的關係
- 說明 NIST AI RMF 的四項核心功能
- 說明 EU AI Act 風險分級如何影響測試要求
- 闡述 AI 紅隊獨有的倫理挑戰
- 說明發現如何從被發現流經治理至補救
- 解釋負面結果在紅隊報告中的價值