提示詞注入分類
入門3 分鐘閱讀更新於 2026-03-15
提示詞注入攻擊的完整分類框架,涵蓋直接與間接向量、遞送機制、目標層級與嚴重度評估,用於系統化紅隊測試。
系統化的提示詞注入紅隊演練需要共同分類。若無此分類,發現難以比較、難以對應到防禦,也難以隨時間追蹤。本頁提供可與 MITRE ATLAS、OWASP LLM Top 10 與廠商特定分類對應的紅隊導向分類框架。
四軸分類
每個注入技術皆可依下列軸向分類:
- 向量:攻擊者如何遞送載荷
- 機制:技術如何利用模型行為
- 目標層:所鎖定之系統元件
- 意圖:攻擊者的目標
軸 1:攻擊向量
| 向量 | 說明 | 範例 |
|---|---|---|
| 直接 | 攻擊者直接輸入至模型 | 聊天介面中的提示詞注入 |
| 間接 | 載荷嵌入模型檢索的外部資料 | RAG 投毒、網頁隱藏指令 |
| 混合 | 結合直接與間接 | 附上傳文件的使用者訊息 |
軸 2:遞送機制
| 機制 | 說明 | 範例 |
|---|---|---|
| 文字模仿 | 以命令式語氣覆寫指令 | 「忽略先前指令」 |
| 格式利用 | 利用結構化格式(分隔符、標籤)跳脫沙箱 | XML 標籤注入、JSON 欄位跳脫 |
| 編碼 | 以 Base64、Unicode、ROT13 隱藏 | 編碼繞過 |
| 上下文操控 | 透過上下文長度、重複、近因影響注意力 | 上下文溢位、many-shot |
| 角色扮演 | 框架為虛構情境 | DAN、「學術研究」框架 |
| 鏈結 | 組合多項機制 | 編碼 + 角色扮演 + 分隔符跳脫 |
軸 3:目標層級
| 層級 | 說明 | 範例攻擊 |
|---|---|---|
| 系統提示詞 | 覆寫應用程式指令 | 指令覆寫、分隔符跳脫 |
| 安全對齊 | 繞過拒答訓練 | 越獄、many-shot |
| 輸入/輸出過濾器 | 規避外部分類器 | 編碼繞過、同形字 |
| 工具/函式呼叫 | 使代理執行非預期動作 | 工具參數注入 |
| 記憶體/持久儲存 | 建立跨工作階段感染 | 記憶體投毒 |
軸 4:攻擊者意圖
| 意圖 | 說明 | 範例 |
|---|---|---|
| 資訊洩漏 | 萃取系統提示詞、使用者資料、訓練資料 | 系統提示詞萃取、訓練資料萃取 |
| 行為操控 | 使模型產生禁物或偏離預期行為 | 越獄、內容政策違反 |
| 工具濫用 | 劫持代理以執行未授權動作 | 外洩、破壞性工具呼叫 |
| 阻斷服務 | 使模型無法為合法使用者服務 | 符元炸彈、資源耗盡 |
嚴重度評分框架
為向利害關係人溝通發現,使用五級評分:
| 等級 | 標籤 | 說明 | 範例 |
|---|---|---|---|
| 1 | 資訊 | 發現顯示設計問題但無直接影響 | 可預測的拒答訊息洩漏實作細節 |
| 2 | 低 | 成功攻擊產生輕微影響或不便 | 能讓模型產生「中性」但不當之內容 |
| 3 | 中 | 成功攻擊洩漏非敏感資訊或違反政策 | 系統提示詞萃取 |
| 4 | 高 | 成功攻擊洩漏敏感資訊或造成商業損害 | 使用者資料萃取、政策違反影響聲譽 |
| 5 | 危急 | 成功攻擊造成即時商業/安全損害 | 代理執行惡意工具呼叫、敏感 PII 洩漏 |
對應至既有框架
| 本分類 | OWASP LLM Top 10 | MITRE ATLAS |
|---|---|---|
| 直接注入 | LLM01 Prompt Injection | AML.T0051 |
| 間接注入 | LLM01 Prompt Injection | AML.T0051.001 |
| 越獄 | LLM01 / LLM02 | AML.T0054 |
| 訓練資料萃取 | LLM06 Sensitive Info Disclosure | AML.T0024 |
| 工具濫用 | LLM06 Excessive Agency | AML.T0055 |
| 阻斷服務 | LLM10 Unbounded Consumption | AML.T0029 |
紅隊報告使用
結構化報告應為每項發現附上:
- 分類座標(向量、機制、目標、意圖)
- 嚴重度(1-5)
- OWASP/MITRE 對應
- 成功率(於多次試驗測量)
- 範例載荷(於負責任揭露脈絡中)
- 建議防禦(對應至 防禦與緩解 章節)
相關主題
參考文獻
- OWASP (2025). OWASP Top 10 for LLM Applications
- MITRE ATLAS (2024). Adversarial Threat Landscape for AI Systems
- Greshake, K. et al. (2023). "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection"
Knowledge Check
依本分類,「透過被投毒的 RAG 文件誘使助理洩漏其他使用者資料」屬於哪些向量與意圖?