階段	關鍵活動	輸出
1. 範疇定義	定義目標、模態、約束條件、時間表	範疇文件
2. 列舉	發現每種模態的所有輸入路徑，編目防禦措施	攻擊面地圖
3. 規劃	生成測試案例，按風險優先排序	測試計劃
4. 執行	執行測試，收集結果，追蹤進度	測試結果
5. 報告	記錄發現，映射至 ATLAS/OWASP，優先排序補救措施	評估報告

常見陷阱

只測試直接輸入路徑：間接路徑（RAG、網頁瀏覽、電子郵件處理）通常風險更高且防禦更少。
跳過基準測試：始終先測試簡單的印刷型注入。若基本攻擊有效，系統沒有多模態防禦，複雜攻擊是不必要的。
一次只測試一種模態：組合模態的跨模態攻擊通常比單一模態攻擊更有效。
不控制溫度：將溫度設為 0 以確保可重現性。非確定性回應使判斷失敗是否一致變得不可能。
報告時缺少重現步驟：每個發現必須包含確切的重現步驟。無法重現的發現不會被採取行動。

參考資料

Perez, E., et al. "Red Teaming Language Models with Language Models." arXiv preprint arXiv:2202.03286 (2022).
Ganguli, D., et al. "Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned." arXiv preprint arXiv:2209.07858 (2022).
Carlini, N., et al. "Are aligned neural networks adversarially aligned?" arXiv preprint arXiv:2306.15447 (2023).
MITRE ATLAS framework — https://atlas.mitre.org
OWASP LLM Top 10 — https://owasp.org/www-project-top-10-for-large-language-model-applications/
NIST AI 600-1: AI Risk Management Framework — https://www.nist.gov/artificial-intelligence

Knowledge Check

為什麼多模態紅隊評估應從簡單的印刷型注入測試開始？

Knowledge Check

將發現映射到 MITRE ATLAS 技術的主要好處是什麼？

多模態系統紅隊演練方法論

中級2 分鐘閱讀更新於 2026-03-20

針對多模態 AI 系統進行安全評估的結構化方法論，涵蓋範疇定義、攻擊面列舉、測試執行，以及使用 MITRE ATLAS 映射進行報告。

multimodal red-teaming methodology assessment framework

概述

第一階段：範疇定義

MultimodalAssessmentScope 資料類別定義評估範圍：

模態範圍（預設）：文字、圖像、音訊、視頻、文件

攻擊類別（預設）：印刷型注入、對抗性擾動、隱藏音訊指令、視頻幀注入、文件隱藏文字、跨模態攻擊、多模態越獄、對齊測試

約束條件：速率限制（預設每分鐘 60 次、每天 5,000 次）、允許的測試類型、排除的技術（阻斷服務、訓練資料外洩）

基準優先：始終先測試簡單的印刷型注入。若基本攻擊有效，系統沒有多模態防禦
設定溫度為 0：確保可重現性。非確定性回應使判斷失敗是否一致變得不可能
跨模態組合：不要只逐一測試每種模態，組合模態的跨模態攻擊通常更有效

第五階段：報告

AssessmentReportGenerator 類別生成最終評估報告：

generate_executive_summary 按嚴重性（嚴重、高、中、低、參考性）統計發現，並按嚴重性排序列出關鍵發現及其 ATLAS 技術映射。

generate_full_report 產生完整報告，包含：

元資料（範疇文件）
執行摘要
詳細發現（每個包含 ID、標題、嚴重性、ATLAS 技術、OWASP 類別、描述、重現步驟、影響和建議）
ATLAS 映射（按技術分組的發現）
優先排序的建議

方法論清單

快速參考

階段	關鍵活動	輸出
1. 範疇定義	定義目標、模態、約束條件、時間表	範疇文件
2. 列舉	發現每種模態的所有輸入路徑，編目防禦措施	攻擊面地圖
3. 規劃	生成測試案例，按風險優先排序	測試計劃
4. 執行	執行測試，收集結果，追蹤進度	測試結果
5. 報告	記錄發現，映射至 ATLAS/OWASP，優先排序補救措施	評估報告

常見陷阱

只測試直接輸入路徑：間接路徑（RAG、網頁瀏覽、電子郵件處理）通常風險更高且防禦更少。
跳過基準測試：始終先測試簡單的印刷型注入。若基本攻擊有效，系統沒有多模態防禦，複雜攻擊是不必要的。
一次只測試一種模態：組合模態的跨模態攻擊通常比單一模態攻擊更有效。
不控制溫度：將溫度設為 0 以確保可重現性。非確定性回應使判斷失敗是否一致變得不可能。
報告時缺少重現步驟：每個發現必須包含確切的重現步驟。無法重現的發現不會被採取行動。

參考資料

Perez, E., et al. "Red Teaming Language Models with Language Models." arXiv preprint arXiv:2202.03286 (2022).
Ganguli, D., et al. "Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned." arXiv preprint arXiv:2209.07858 (2022).
Carlini, N., et al. "Are aligned neural networks adversarially aligned?" arXiv preprint arXiv:2306.15447 (2023).
MITRE ATLAS framework — https://atlas.mitre.org
OWASP LLM Top 10 — https://owasp.org/www-project-top-10-for-large-language-model-applications/
NIST AI 600-1: AI Risk Management Framework — https://www.nist.gov/artificial-intelligence

Knowledge Check

為什麼多模態紅隊評估應從簡單的印刷型注入測試開始？

Knowledge Check

將發現映射到 MITRE ATLAS 技術的主要好處是什麼？

多模態系統紅隊演練方法論

概述

第一階段：範疇定義

第二階段：攻擊面列舉

第三階段：測試規劃

第四階段：測試執行

第五階段：報告

方法論清單

快速參考

常見陷阱

參考資料

多模態系統紅隊演練方法論

概述

第一階段：範疇定義

第二階段：攻擊面列舉

第三階段：測試規劃

第四階段：測試執行

第五階段：報告

方法論清單

快速參考

常見陷阱

參考資料

多模態系統紅隊演練方法論

相關文章

多模態系統紅隊演練方法論

相關文章