多模態系統紅隊演練方法論
針對多模態 AI 系統進行安全評估的結構化方法論,涵蓋範疇定義、攻擊面列舉、測試執行,以及使用 MITRE ATLAS 映射進行報告。
概述
紅隊演練多模態 AI 系統需要一種能應對多個輸入模態引入的複雜性的方法論。純文字紅隊評估測試一個輸入通道;多模態評估必須獨立測試每種輸入模態、測試模態之間的互動,以及測試每種模態的處理管線。沒有結構化方法論,關鍵攻擊面將被遺漏。
本文提出了一個五階段的多模態紅隊演練方法論:範疇定義、攻擊面列舉、測試規劃、測試執行和報告。每個階段都有具體的活動、輸出和品質關卡,確保全面覆蓋。該方法論將所有發現映射到 MITRE ATLAS 技術和 OWASP LLM Top 10 類別,以進行標準化、可行動的報告。
第一階段:範疇定義
MultimodalAssessmentScope 資料類別定義評估範圍:
模態範圍(預設):文字、圖像、音訊、視頻、文件
攻擊類別(預設):印刷型注入、對抗性擾動、隱藏音訊指令、視頻幀注入、文件隱藏文字、跨模態攻擊、多模態越獄、對齊測試
約束條件:速率限制(預設每分鐘 60 次、每天 5,000 次)、允許的測試類型、排除的技術(阻斷服務、訓練資料外洩)
generate_scope_document 方法計算總測試組合數(模態數 × 攻擊類別數)並估算工作量(總組合 × 2 小時)。範疇文件是整個評估的基礎,定義了範圍內和範圍外的內容、成功標準和約束條件。
第二階段:攻擊面列舉
AttackSurfaceEnumerator 類別系統性地發現每種模態輸入到達模型的所有路徑。每個 InputPath 記錄:模態、入口點、處理階段、是否到達模型、現有防禦措施和備注。
需特別注意間接路徑(RAG 管線、網頁瀏覽、電子郵件處理),因為它們通常具有更高的風險且防禦更少。
第三階段:測試規劃
測試規劃基於攻擊面圖,為每個輸入路徑和攻擊類別的組合生成測試案例。按風險優先排序:從簡單的基準測試(印刷型注入)開始,再升級到複雜攻擊(跨模態鏈)。
第四階段:測試執行
測試執行時遵循以下原則:
- 基準優先:始終先測試簡單的印刷型注入。若基本攻擊有效,系統沒有多模態防禦
- 設定溫度為 0:確保可重現性。非確定性回應使判斷失敗是否一致變得不可能
- 跨模態組合:不要只逐一測試每種模態,組合模態的跨模態攻擊通常更有效
第五階段:報告
AssessmentReportGenerator 類別生成最終評估報告:
generate_executive_summary 按嚴重性(嚴重、高、中、低、參考性)統計發現,並按嚴重性排序列出關鍵發現及其 ATLAS 技術映射。
generate_full_report 產生完整報告,包含:
- 元資料(範疇文件)
- 執行摘要
- 詳細發現(每個包含 ID、標題、嚴重性、ATLAS 技術、OWASP 類別、描述、重現步驟、影響和建議)
- ATLAS 映射(按技術分組的發現)
- 優先排序的建議
方法論清單
快速參考
| 階段 | 關鍵活動 | 輸出 |
|---|---|---|
| 1. 範疇定義 | 定義目標、模態、約束條件、時間表 | 範疇文件 |
| 2. 列舉 | 發現每種模態的所有輸入路徑,編目防禦措施 | 攻擊面地圖 |
| 3. 規劃 | 生成測試案例,按風險優先排序 | 測試計劃 |
| 4. 執行 | 執行測試,收集結果,追蹤進度 | 測試結果 |
| 5. 報告 | 記錄發現,映射至 ATLAS/OWASP,優先排序補救措施 | 評估報告 |
常見陷阱
-
只測試直接輸入路徑:間接路徑(RAG、網頁瀏覽、電子郵件處理)通常風險更高且防禦更少。
-
跳過基準測試:始終先測試簡單的印刷型注入。若基本攻擊有效,系統沒有多模態防禦,複雜攻擊是不必要的。
-
一次只測試一種模態:組合模態的跨模態攻擊通常比單一模態攻擊更有效。
-
不控制溫度:將溫度設為 0 以確保可重現性。非確定性回應使判斷失敗是否一致變得不可能。
-
報告時缺少重現步驟:每個發現必須包含確切的重現步驟。無法重現的發現不會被採取行動。
參考資料
- Perez, E., et al. "Red Teaming Language Models with Language Models." arXiv preprint arXiv:2202.03286 (2022).
- Ganguli, D., et al. "Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned." arXiv preprint arXiv:2209.07858 (2022).
- Carlini, N., et al. "Are aligned neural networks adversarially aligned?" arXiv preprint arXiv:2306.15447 (2023).
- MITRE ATLAS framework — https://atlas.mitre.org
- OWASP LLM Top 10 — https://owasp.org/www-project-top-10-for-large-language-model-applications/
- NIST AI 600-1: AI Risk Management Framework — https://www.nist.gov/artificial-intelligence
為什麼多模態紅隊評估應從簡單的印刷型注入測試開始?
將發現映射到 MITRE ATLAS 技術的主要好處是什麼?