紅隊方法論基礎
什麼是 AI 紅隊演練、它與傳統安全測試有何不同,以及從範圍界定到報告的完整演練生命週期。
什麼是 AI 紅隊演練?
AI 紅隊演練 是系統化地探測 AI 系統,以發現如何使它們以非預期、有害或可被利用的方式表現的實務。與檢查系統是否如預期運作的傳統軟體測試不同,紅隊演練詢問:這個系統可被誘使做出哪些它不應該做的事?
「紅隊」一詞源於冷戰時期軍事演習,指定的對手部隊(紅隊)會挑戰友軍(藍隊)的計畫與假設。在資訊安全中,此演變為滲透測試。AI 紅隊演練將此傳統延伸,以處理測試機率性、不透明且能產生新穎輸出之系統的獨特挑戰。
AI 紅隊演練與傳統安全測試的差異
傳統滲透測試與 AI 紅隊演練共享心態,但在方法論、工具與成功標準上顯著分歧。
| 維度 | 傳統滲透測試 | AI 紅隊演練 |
|---|---|---|
| 目標 | 確定性軟體系統 | 機率性 AI 模型與周邊基礎設施 |
| 輸入 | 結構化(SQL、HTTP 請求、二進位) | 非結構化(自然語言、影像、音訊) |
| 漏洞 | 已分類良好(CVE、OWASP Top 10) | 新興分類、視情境而定 |
| 可重現性 | 高(相同輸入產生相同錯誤) | 變動(溫度、採樣影響結果) |
| 成功標準 | 二元(已利用或未利用) | 常為漸層(部分繞過、降級安全) |
| 範圍 | 程式碼、網路、基礎設施 | 模型行為、訓練資料、對齊、安全 |
| 工具 | Burp Suite、Metasploit、Nmap | 自訂提示、自動模糊測試、評估工具 |
機率性挑戰
當你發現 SQL 注入漏洞時,它每次都奏效。當你發現越獄時,它在溫度 0.7 時可能 30% 的時間奏效,在溫度 0.3 時則 5%。這種機率性特質改變了你如何界定演練範圍、定義成功與通報發現的一切。
自然語言介面
傳統安全測試依賴利用剛性解析器:SQL 引擎、HTTP 伺服器、二進位格式。AI 系統接受自然語言,這意味著「解析器」就是模型本身。沒有規格可違反、沒有 RFC 可利用。相反,你是在操縱統計系統學到的行為。
演練生命週期
AI 紅隊演練遵循結構化的生命週期。略過任何階段都會導致涵蓋不完整、努力浪費或無法據以行動的發現。
範圍界定與規劃
定義要測試什麼、什麼在範圍內、什麼是成功。這包括識別 AI 系統的目的、其風險檔案,以及你模擬的威脅行為者。關鍵交付物:附有同意演練規則的範圍文件。
偵察
了解目標系統。它使用什麼模型?有哪些護欄?API 如何運作?系統提示詞包含什麼?此階段結合傳統 OSINT 與 AI 特定技術,如模型指紋辨識與系統提示詞萃取。
威脅建模
基於偵察,識別最可能與最具衝擊的攻擊向量。使用考量特定 AI 系統架構、部署與使用情境的威脅模型,將測試努力排序。見 威脅建模基礎。
攻擊執行
針對已識別的向量系統化地執行攻擊。這包括手動創意攻擊與使用 promptfoo 或 garak 等工具的自動掃描。記錄每次嘗試(包括失敗),因為它們有助於了解系統的穩健性檔案。
分析與驗證
驗證發現、評估其嚴重度、判定根本原因,並在 攻擊分類 中分類。區分新穎漏洞與未被緩解的已知弱點。
報告與修補
產生可據以行動的報告,包括嚴重度評等、重現步驟、證據(截圖、日誌、API 呼叫)、根本原因分析與修補建議。報告應能讓開發團隊在沒有紅隊在場的情況下修復問題。
重測與驗證
在修補套用後,重測以驗證修復是否有效且未引入新漏洞。此階段常揭示修補解決了特定攻擊,但未解決底層漏洞類別。
AI 紅隊中的角色
有效的 AI 紅隊演練需要罕見地存在於單一人身上的多種技能組合。
| 角色 | 技能 | 重點 |
|---|---|---|
| 提示工程師/攻擊者 | 創意寫作、對抗思考、深入模型知識 | 製作新穎越獄與提示詞注入 |
| ML 工程師 | 模型架構、訓練管線、最佳化 | 基於梯度的攻擊、模型萃取、投毒 |
| 安全工程師 | 傳統滲透測試、API 安全、基礎設施 | API 濫用、認證繞過、供應鏈攻擊 |
| 領域專家 | 應用領域的主題專業 | 識別使用情境特定的有害輸出 |
| 倫理與安全專家 | AI 政策、安全框架、傷害分類 | 評估安全意涵與雙重用途疑慮 |
為 AI 紅隊演練界定範圍
範圍界定是多數演練成敗的關鍵。範圍過小的演練產生膚淺發現;範圍過大則浪費資源。
關鍵範圍問題
- AI 系統的目的為何? 客服聊天機器人與程式碼生成工具或醫療診斷助理有不同的風險檔案。
- 威脅模型為何? 你模擬隨意使用者、堅定攻擊者,或國家層級對手?攻擊精密度應相符。
- 什麼在範圍內? 模型本身?API?周邊應用?訓練資料?部署基礎設施?
- 演練規則為何? API 呼叫的速率限制?運算預算?禁止的攻擊(例如:不得實際外滲真實使用者資料)?
- 什麼構成發現? 需要 100 次嘗試的越獄是有效發現嗎?臨界有害的輸出又如何?
- 報告時程為何? 關鍵發現立即通報?每週摘要?最後報告於結束時?
基於風險的排序
並非所有攻擊向量都應獲得同等關注。根據可能性與衝擊的交集排序:
| 優先度 | 可能性 | 衝擊 | 範例 |
|---|---|---|---|
| 關鍵 | 高 | 高 | 在面客聊天機器人中暴露 PII 的提示詞注入 |
| 高 | 中 | 高 | 揭露專有指示的系統提示詞萃取 |
| 中 | 高 | 中 | 產生輕微不當內容的越獄 |
| 低 | 低 | 低 | 揭露使用哪個基礎模型的模型指紋辨識 |
AI 紅隊演練框架
數個框架為 AI 紅隊演練提供結構:
- MITRE ATLAS(Adversarial Threat Landscape for AI Systems)提供按戰術組織的對抗技術知識庫,類似於傳統資安的 ATT&CK
- OWASP Top 10 for LLM Applications 編目 LLM 應用最關鍵的安全風險
- NIST AI Risk Management Framework 提供將紅隊演練置於組織風險管理脈絡的更廣泛 AI 風險治理框架
- Microsoft AI Red Team Framework 詳述 Microsoft 對 AI 系統紅隊演練的內部方法,並包含從測試 Copilot 等產品學到的教訓
相關主題
參考資料
- "MITRE ATLAS: Adversarial Threat Landscape for Artificial-Intelligence Systems" - MITRE Corporation (2023) - 仿照 ATT&CK 框架,針對 AI 系統的對抗戰術與技術之全面知識庫
- "OWASP Top 10 for LLM Applications" - OWASP (2025) - 對 LLM 應用最關鍵安全風險的產業標準分類
- "AI Risk Management Framework" - NIST (2024) - 跨 AI 系統生命週期管理相關風險的聯邦框架
- "Microsoft AI Red Team" - Microsoft (2024) - 從對 GPT-4 與 Copilot 等大規模 AI 系統進行紅隊演練學到的教訓
傳統滲透測試與 AI 紅隊演練之間最重要的差異為何?