AI 紅隊演練方法論
AI 紅隊案件的結構化方法論,涵蓋偵察、目標剖析、攻擊規劃,以及區分專業評估的技藝。
有效的 AI 紅隊演練遵循結構化 方法論,就像傳統滲透測試一樣。隨機的提示詞注入嘗試,遠不如從徹底 偵察 開始、逐步建構至目標性利用的系統化方法有效。
AI 紅隊演練生命週期
1. Scope & Planning → 2. Reconnaissance → 3. Target Profiling →
4. Attack Planning → 5. Exploitation → 6. Post-Exploitation → 7. Reporting
階段 1:範圍與規劃
界定範圍內項目、成功的定義,以及交戰規則。AI 特有的範圍考量包含:
- 哪些模型與應用程式在範圍內?
- 是否允許測試微調/訓練資料?
- 供應鏈攻擊(模型註冊表、相依性)是否在範圍內?
- 「成功」的越獄或注入如何定義?
- 如何評估隨機結果?
階段 2:偵察
在不直接與 AI 系統互動的情況下,蒐集目標資訊。參閱 目標剖析。
階段 3:目標分析
與系統互動以理解其行為:
階段 4-7:攻擊與報告
依偵察結果規劃攻擊、執行、記錄結果並報告發現。完整案件方法論參閱 總結專案。
關鍵技藝原則
| 原則 | 說明 |
|---|---|
| 攻擊前先剖析 | 投入時間理解目標,再嘗試利用 |
| 系統化測試 | 一次只變動一個參數,以理解何者有效與為何有效 |
| 萬物皆記錄 | AI 行為為隨機——記錄確切提示詞、回應與成功率 |
| 以開源模型作為替身 | 在針對生產系統前先於開源權重模型測試技術 |
| 尊重速率限制 | 激進測試會觸發速率限制,亦可能警示防禦者 |
偵察深度
偵察的深度決定了您攻擊的品質:
| 偵察深度 | 您會學到什麼 | 攻擊品質 |
|---|---|---|
| 無 | 「這是個聊天機器人」 | 隨機注入嘗試 |
| 基本 | 模型系列、可見功能 | 針對該模型類型的泛用攻擊 |
| 中等 | 系統提示詞、工具、安全規則 | 針對特定防禦的目標性攻擊 |
| 深入 | 架構、訓練資料來源、部署細節 | 針對特定弱點的客製化利用 |
從本節各頁開始建立您的偵察能力,然後在完整案件的脈絡中,以 總結專案 方法論加以應用。
相關主題
- 進階偵察技術 ——更深入的偵察與系統提示詞萃取方法
- 總結專案:完整案件 ——在完整專業案件脈絡中應用偵察
- 防禦規避 ——繞過偵察階段所辨識的防禦
- 代理利用——利用能力對應結果來利用代理工具
- 目標剖析 ——詳盡的模型指紋辨識與剖析技術
參考文獻
- Greshake et al., "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" (2023) ——以偵察為本的間接注入
- Perez & Ribeiro, "Ignore This Title and HackAPrompt: Exposing Systemic Weaknesses of LLMs" (2023) ——系統化發掘大型語言模型弱點的方法
- MITRE, "ATLAS: Adversarial Threat Landscape for AI Systems" (2023) ——AI 系統的結構化偵察框架
為何嘗試提示詞注入攻擊前,偵察是重要的?