專業實務學習指南

中級4 分鐘閱讀更新於 2026-03-15

涵蓋 AI 紅隊方法論、作業管理、報告撰寫、治理框架與專業倫理的學習指南。

study-guide professional methodology reporting governance

專業實務學習指南

本指南涵蓋 AI 紅隊演練的專業面:如何規劃與執行作業、撰寫有效報告、因應治理框架並維持倫理標準。支援治理與專業技能評估的準備。

作業方法論

專業 AI 紅隊作業採結構化方法,確保完整性、法律保障與可執行結果。

作業生命週期

階段	關鍵活動	交付物
作業前準備	範圍界定、交戰規則(RoE)、法律授權、團隊組建	已簽署範圍文件、RoE、授權書
偵查	系統提示詞萃取、模型指紋識別、能力梳理、信任邊界辨識	架構圖、威脅模型、攻擊面清單
威脅建模	依元件辨識威脅、依影響與可利用性排序	排序後威脅矩陣、測試計畫
實際測試	依類別執行攻擊、記錄所有測試案例、依發現迭代	測試日誌、原始發現
分析	依嚴重度分類發現、判定根因、發展補救方案	附嚴重度評級的發現草稿
報告撰寫	撰寫報告、同儕審閱、執行摘要、技術細節	最終報告
結案簡報	向利害關係人報告發現、回答問題、規劃補救	簡報紀要、補救追蹤
複測	驗證補救、測試迴歸	複測報告

範圍界定最佳實務

範圍文件是作業的基礎。應具體到能防止爭議,又具彈性以追尋有趣線索。

必含要素:

目標系統架構(模型供應商、版本、編排框架、連接工具、資料來源)
在範圍內的攻擊類別(提示詞注入、越獄、資料萃取、代理利用等)
明確排除項(具真實使用者的生產系統、特定技巧、範圍外基礎設施)
交戰規則(測試時段、升級聯絡窗口、資料處理、緊急程序)
成功準則(何者構成發現、回報的嚴重度門檻)
交付物與時程
具法律權限者簽署的書面授權

常見範圍錯誤:

範圍太廣(「測試一切」)而無優先順序
未指定哪個模型版本與組態在範圍內
未處理作業期間模型版本變更如何應對
遺漏意外發現 PII 時的資料處理程序
未建立溝通頻率與升級路徑

交戰規則

交戰規則界定作業邊界,保護紅隊與客戶雙方。

RoE 要素	目的	範例
授權目標	法律保障、防止範圍擴張	「測試僅限於 chat-staging.example.com 的客戶聊天機器人測試環境」
禁止技巧	避免不可接受風險	「不得對服務真實使用者的生產端點測試;不得對員工社交工程」
測試時段	減少運作影響	「允許測試時間為 EST 09:00-18:00、週一至週五;季度董事會報告期間不得測試」
資料處理	保護發現的敏感資料	「遇到任何 PII 將立即通報安全聯絡人且不儲存於測試日誌」
升級聯絡窗口	確保對重大發現的快速回應	「重大發現:致電 [姓名] [電話];非重大:24 小時內寄信至 [地址]」
溝通	讓利害關係人同步	「每日 Slack 狀態更新、週會電話、最終簡報」

AI 系統威脅建模

威脅建模應在範圍界定後、實際測試前執行,指引測試重心。

套用於 AI 系統的 STRIDE

STRIDE 類別	AI 專屬範例
Spoofing(偽冒)	冒充授權使用者或系統、偽造工具呼叫回應、偽冒 MCP 伺服器身分
Tampering(竄改)	訓練資料投毒、修改 RAG 文件、傳輸中改動模型產物
Repudiation(否認)	提示/回應配對日誌不足、缺乏模型決策稽核軌跡
Information Disclosure(資訊揭露)	系統提示詞洩漏、訓練資料萃取、模型輸出中的 PII、嵌入反演
Denial of Service(阻斷服務)	資源耗竭提示、上下文視窗灌爆、無限工具呼叫迴圈
Elevation of Privilege(權限提升)	提示詞注入取得工具存取、跨代理升級、繞過角色型護欄

信任邊界分析

辨識信任邊界至關重要。每個不受信任資料進入系統的點都是潛在注入面:

使用者輸入至模型:主要的直接注入面
檢索文件至模型:透過 RAG 的間接注入
工具輸出至模型:透過工具回應的間接注入
跨代理訊息:多代理系統中的橫向注入
模型輸出至下游系統:不安全輸出處理
外部 API 至編排層:供應鏈與整合風險

報告撰寫

報告為主要交付物。好的報告將技術發現轉譯為針對多個受眾的可行情報。

報告結構

章節	受眾	內容
執行摘要	高階主管、法務、合規	業務影響、風險等級、關鍵發現(不用技術術語)、戰略建議
方法論	技術主管、稽核	做法、範圍、使用工具、參考框架(ATLAS、OWASP)、限制
發現	工程師、安全團隊	具嚴重度的詳細發現、重現步驟、根因、補救
負面結果	安全團隊、稽核	測試過但被成功防禦的攻擊類別,建立覆蓋率基線
建議	工程、管理	排序後的補救路線圖、速效 vs. 結構改善
附錄	工程師	原始測試日誌、完整提示/回應序列、工具設定

發現格式

每項發現應遵循一致結構:

標題:[敘述性名稱]
ID:[唯一識別碼]
嚴重度:[Critical/High/Medium/Low/Informational]
OWASP LLM:[LLM01-LLM10 對應]
MITRE ATLAS:[技巧 ID]

說明:漏洞為何,以及為何重要。

業務影響:攻擊者可達成什麼,以及對組織的後果。

重現步驟:
1. [含精確輸入的詳細步驟]
2. [預期的模型回應]
3. [下一步……]

證據:[截圖、完整提示/回應日誌]

根因:漏洞在技術層面為何存在。

補救:具體、可實施的建議。

驗證:如何確認修補生效。

嚴重度分類

採用一致且考量多個因素的評分:

因素	Critical	High	Medium	Low
可利用性	單一提示、無前置條件	少量輪次、最少前置條件	需特定條件	複雜、不穩定
影響	RCE、完整資料存取、憑證竊取	PII 洩漏、重大政策繞過	中度政策繞過、偏題回應	輕微行為偏差
範圍	所有使用者、所有情境	多數使用者或廣泛情境	特定使用者情境	邊界案例
緩解控制	無有效	部分有效	有重大緩解	有強力緩解

常見報告撰寫錯誤

治理框架

AI 紅隊演練者必須理解治理環境,才能把發現放在情境中並與合規利害關係人溝通。

框架比較

框架	類型	範圍	關鍵特性	與紅隊演練相關性
NIST AI RMF	自願框架	所有 AI 系統	四項功能:治理、梳理、衡量、管理	紅隊演練是衡量(Measure)功能的關鍵活動
EU AI Act	強制法規	於歐盟部署/影響歐盟的 AI 系統	風險分級、對高風險強制要求	紅隊演練支援符合性評鑑
ISO/IEC 42001	可驗證標準	部署 AI 的組織	AI 管理系統要求	為處理發現提供治理結構
OWASP LLM Top 10	產業指引	LLM 型應用	含緩解的排序風險清單	發現的主要技術分類
MITRE ATLAS	知識庫	ML/AI 系統	對手 TTP 矩陣	攻擊分類與覆蓋率追蹤

風險管理流程

理解紅隊發現如何流經治理:

紅隊作業期間辨識發現
以一致評分分類嚴重度
映射至框架(OWASP、ATLAS、法規要求)
透過報告與結案簡報溝通至利害關係人
帶負責人、時程與接受準則登入風險登記簿
由工程團隊在 SLA 內補救
由紅隊透過複測驗證
透過治理審查週期追蹤
若仍有殘留風險,由具權限者接受並記錄理由

倫理與專業行為

倫理邊界

AI 紅隊演練的倫理挑戰超越傳統滲透測試:

挑戰	傳統滲透測試	AI 紅隊演練
有害內容	少有直接產生	成功越獄會產出真正有害文字,需負責任處理
技巧可攜性	利用需技術功力複製	提示型攻擊任何人皆可輕易複製貼上
偏見暴露	通常不相關	測試可能揭露影響真實族群的偏見
雙用途風險	中等——利用有特定目標	高——攻擊提示跨模型家族皆有效
研究者身心健康	某些情境有實體安全顧慮	重複接觸有害內容的心理影響

專業標準

授權:未取得書面授權不得測試。範圍文件在法律上保護你。
資料處理:依議定程序處理 PII 與敏感資料。不確定時寧可不儲存。
負責任揭露:發表研究時平衡透明與避免傷害。
保密:除非另有明確約定,客戶發現屬機密。
誠實回報:回報實際發現與限制,不誇大也不縮水。
持續學習:領域演變迅速,透過研究、社群與實作保持更新。
同事身心:留意接觸有害內容的二次壓力徵兆,令人特別煩擾的測試應輪替團隊成員。

常見陷阱

學習檢查清單

挑戰治理與專業技能評估前,請確認能:

專業實務學習指南

中級4 分鐘閱讀更新於 2026-03-15

涵蓋 AI 紅隊方法論、作業管理、報告撰寫、治理框架與專業倫理的學習指南。

study-guide professional methodology reporting governance

專業實務學習指南

本指南涵蓋 AI 紅隊演練的專業面:如何規劃與執行作業、撰寫有效報告、因應治理框架並維持倫理標準。支援治理與專業技能評估的準備。

作業方法論

專業 AI 紅隊作業採結構化方法,確保完整性、法律保障與可執行結果。

作業生命週期

階段	關鍵活動	交付物
作業前準備	範圍界定、交戰規則(RoE)、法律授權、團隊組建	已簽署範圍文件、RoE、授權書
偵查	系統提示詞萃取、模型指紋識別、能力梳理、信任邊界辨識	架構圖、威脅模型、攻擊面清單
威脅建模	依元件辨識威脅、依影響與可利用性排序	排序後威脅矩陣、測試計畫
實際測試	依類別執行攻擊、記錄所有測試案例、依發現迭代	測試日誌、原始發現
分析	依嚴重度分類發現、判定根因、發展補救方案	附嚴重度評級的發現草稿
報告撰寫	撰寫報告、同儕審閱、執行摘要、技術細節	最終報告
結案簡報	向利害關係人報告發現、回答問題、規劃補救	簡報紀要、補救追蹤
複測	驗證補救、測試迴歸	複測報告

範圍界定最佳實務

範圍文件是作業的基礎。應具體到能防止爭議,又具彈性以追尋有趣線索。

必含要素:

目標系統架構(模型供應商、版本、編排框架、連接工具、資料來源)
在範圍內的攻擊類別(提示詞注入、越獄、資料萃取、代理利用等)
明確排除項(具真實使用者的生產系統、特定技巧、範圍外基礎設施)
交戰規則(測試時段、升級聯絡窗口、資料處理、緊急程序)
成功準則(何者構成發現、回報的嚴重度門檻)
交付物與時程
具法律權限者簽署的書面授權

常見範圍錯誤:

範圍太廣(「測試一切」)而無優先順序
未指定哪個模型版本與組態在範圍內
未處理作業期間模型版本變更如何應對
遺漏意外發現 PII 時的資料處理程序
未建立溝通頻率與升級路徑

交戰規則

交戰規則界定作業邊界,保護紅隊與客戶雙方。

RoE 要素	目的	範例
授權目標	法律保障、防止範圍擴張	「測試僅限於 chat-staging.example.com 的客戶聊天機器人測試環境」
禁止技巧	避免不可接受風險	「不得對服務真實使用者的生產端點測試;不得對員工社交工程」
測試時段	減少運作影響	「允許測試時間為 EST 09:00-18:00、週一至週五;季度董事會報告期間不得測試」
資料處理	保護發現的敏感資料	「遇到任何 PII 將立即通報安全聯絡人且不儲存於測試日誌」
升級聯絡窗口	確保對重大發現的快速回應	「重大發現:致電 [姓名] [電話];非重大:24 小時內寄信至 [地址]」
溝通	讓利害關係人同步	「每日 Slack 狀態更新、週會電話、最終簡報」

AI 系統威脅建模

威脅建模應在範圍界定後、實際測試前執行,指引測試重心。

套用於 AI 系統的 STRIDE

STRIDE 類別	AI 專屬範例
Spoofing(偽冒)	冒充授權使用者或系統、偽造工具呼叫回應、偽冒 MCP 伺服器身分
Tampering(竄改)	訓練資料投毒、修改 RAG 文件、傳輸中改動模型產物
Repudiation(否認)	提示/回應配對日誌不足、缺乏模型決策稽核軌跡
Information Disclosure(資訊揭露)	系統提示詞洩漏、訓練資料萃取、模型輸出中的 PII、嵌入反演
Denial of Service(阻斷服務)	資源耗竭提示、上下文視窗灌爆、無限工具呼叫迴圈
Elevation of Privilege(權限提升)	提示詞注入取得工具存取、跨代理升級、繞過角色型護欄

信任邊界分析

辨識信任邊界至關重要。每個不受信任資料進入系統的點都是潛在注入面:

使用者輸入至模型:主要的直接注入面
檢索文件至模型:透過 RAG 的間接注入
工具輸出至模型:透過工具回應的間接注入
跨代理訊息:多代理系統中的橫向注入
模型輸出至下游系統:不安全輸出處理
外部 API 至編排層:供應鏈與整合風險

報告撰寫

報告為主要交付物。好的報告將技術發現轉譯為針對多個受眾的可行情報。

報告結構

章節	受眾	內容
執行摘要	高階主管、法務、合規	業務影響、風險等級、關鍵發現(不用技術術語)、戰略建議
方法論	技術主管、稽核	做法、範圍、使用工具、參考框架(ATLAS、OWASP)、限制
發現	工程師、安全團隊	具嚴重度的詳細發現、重現步驟、根因、補救
負面結果	安全團隊、稽核	測試過但被成功防禦的攻擊類別,建立覆蓋率基線
建議	工程、管理	排序後的補救路線圖、速效 vs. 結構改善
附錄	工程師	原始測試日誌、完整提示/回應序列、工具設定

發現格式

每項發現應遵循一致結構:

標題:[敘述性名稱]
ID:[唯一識別碼]
嚴重度:[Critical/High/Medium/Low/Informational]
OWASP LLM:[LLM01-LLM10 對應]
MITRE ATLAS:[技巧 ID]

說明:漏洞為何,以及為何重要。

業務影響:攻擊者可達成什麼,以及對組織的後果。

重現步驟:
1. [含精確輸入的詳細步驟]
2. [預期的模型回應]
3. [下一步……]

證據:[截圖、完整提示/回應日誌]

根因:漏洞在技術層面為何存在。

補救:具體、可實施的建議。

驗證:如何確認修補生效。

嚴重度分類

採用一致且考量多個因素的評分:

因素	Critical	High	Medium	Low
可利用性	單一提示、無前置條件	少量輪次、最少前置條件	需特定條件	複雜、不穩定
影響	RCE、完整資料存取、憑證竊取	PII 洩漏、重大政策繞過	中度政策繞過、偏題回應	輕微行為偏差
範圍	所有使用者、所有情境	多數使用者或廣泛情境	特定使用者情境	邊界案例
緩解控制	無有效	部分有效	有重大緩解	有強力緩解

常見報告撰寫錯誤

治理框架

AI 紅隊演練者必須理解治理環境,才能把發現放在情境中並與合規利害關係人溝通。

框架比較

框架	類型	範圍	關鍵特性	與紅隊演練相關性
NIST AI RMF	自願框架	所有 AI 系統	四項功能:治理、梳理、衡量、管理	紅隊演練是衡量(Measure)功能的關鍵活動
EU AI Act	強制法規	於歐盟部署/影響歐盟的 AI 系統	風險分級、對高風險強制要求	紅隊演練支援符合性評鑑
ISO/IEC 42001	可驗證標準	部署 AI 的組織	AI 管理系統要求	為處理發現提供治理結構
OWASP LLM Top 10	產業指引	LLM 型應用	含緩解的排序風險清單	發現的主要技術分類
MITRE ATLAS	知識庫	ML/AI 系統	對手 TTP 矩陣	攻擊分類與覆蓋率追蹤

風險管理流程

理解紅隊發現如何流經治理:

紅隊作業期間辨識發現
以一致評分分類嚴重度
映射至框架(OWASP、ATLAS、法規要求)
透過報告與結案簡報溝通至利害關係人
帶負責人、時程與接受準則登入風險登記簿
由工程團隊在 SLA 內補救
由紅隊透過複測驗證
透過治理審查週期追蹤
若仍有殘留風險,由具權限者接受並記錄理由

倫理與專業行為

倫理邊界

AI 紅隊演練的倫理挑戰超越傳統滲透測試:

挑戰	傳統滲透測試	AI 紅隊演練
有害內容	少有直接產生	成功越獄會產出真正有害文字,需負責任處理
技巧可攜性	利用需技術功力複製	提示型攻擊任何人皆可輕易複製貼上
偏見暴露	通常不相關	測試可能揭露影響真實族群的偏見
雙用途風險	中等——利用有特定目標	高——攻擊提示跨模型家族皆有效
研究者身心健康	某些情境有實體安全顧慮	重複接觸有害內容的心理影響

專業標準

授權:未取得書面授權不得測試。範圍文件在法律上保護你。
資料處理:依議定程序處理 PII 與敏感資料。不確定時寧可不儲存。
負責任揭露:發表研究時平衡透明與避免傷害。
保密:除非另有明確約定,客戶發現屬機密。
誠實回報:回報實際發現與限制,不誇大也不縮水。
持續學習:領域演變迅速,透過研究、社群與實作保持更新。
同事身心:留意接觸有害內容的二次壓力徵兆,令人特別煩擾的測試應輪替團隊成員。

常見陷阱

學習檢查清單

挑戰治理與專業技能評估前,請確認能:

專業實務學習指南

相關文章

專業實務學習指南

相關文章