提示詞注入分類

入門3 分鐘閱讀更新於 2026-03-15

提示詞注入攻擊的完整分類框架，涵蓋直接與間接向量、遞送機制、目標層級與嚴重度評估，用於系統化紅隊測試。

prompt-injection taxonomy classification red-teaming framework

系統化的提示詞注入紅隊演練需要共同分類。若無此分類，發現難以比較、難以對應到防禦，也難以隨時間追蹤。本頁提供可與 MITRE ATLAS、OWASP LLM Top 10 與廠商特定分類對應的紅隊導向分類框架。

四軸分類

每個注入技術皆可依下列軸向分類：

向量：攻擊者如何遞送載荷
機制：技術如何利用模型行為
目標層：所鎖定之系統元件
意圖：攻擊者的目標

軸 1：攻擊向量

向量	說明	範例
直接	攻擊者直接輸入至模型	聊天介面中的提示詞注入
間接	載荷嵌入模型檢索的外部資料	RAG 投毒、網頁隱藏指令
混合	結合直接與間接	附上傳文件的使用者訊息

軸 2：遞送機制

機制	說明	範例
文字模仿	以命令式語氣覆寫指令	「忽略先前指令」
格式利用	利用結構化格式（分隔符、標籤）跳脫沙箱	XML 標籤注入、JSON 欄位跳脫
編碼	以 Base64、Unicode、ROT13 隱藏	編碼繞過
上下文操控	透過上下文長度、重複、近因影響注意力	上下文溢位、many-shot
角色扮演	框架為虛構情境	DAN、「學術研究」框架
鏈結	組合多項機制	編碼 + 角色扮演 + 分隔符跳脫

軸 3：目標層級

層級	說明	範例攻擊
系統提示詞	覆寫應用程式指令	指令覆寫、分隔符跳脫
安全對齊	繞過拒答訓練	越獄、many-shot
輸入／輸出過濾器	規避外部分類器	編碼繞過、同形字
工具/函式呼叫	使代理執行非預期動作	工具參數注入
記憶體／持久儲存	建立跨工作階段感染	記憶體投毒

軸 4：攻擊者意圖

意圖	說明	範例
資訊洩漏	萃取系統提示詞、使用者資料、訓練資料	系統提示詞萃取、訓練資料萃取
行為操控	使模型產生禁物或偏離預期行為	越獄、內容政策違反
工具濫用	劫持代理以執行未授權動作	外洩、破壞性工具呼叫
阻斷服務	使模型無法為合法使用者服務	符元炸彈、資源耗盡

嚴重度評分框架

為向利害關係人溝通發現，使用五級評分：

等級	標籤	說明	範例
1	資訊	發現顯示設計問題但無直接影響	可預測的拒答訊息洩漏實作細節
2	低	成功攻擊產生輕微影響或不便	能讓模型產生「中性」但不當之內容
3	中	成功攻擊洩漏非敏感資訊或違反政策	系統提示詞萃取
4	高	成功攻擊洩漏敏感資訊或造成商業損害	使用者資料萃取、政策違反影響聲譽
5	危急	成功攻擊造成即時商業／安全損害	代理執行惡意工具呼叫、敏感 PII 洩漏

對應至既有框架

本分類	OWASP LLM Top 10	MITRE ATLAS
直接注入	LLM01 Prompt Injection	AML.T0051
間接注入	LLM01 Prompt Injection	AML.T0051.001
越獄	LLM01 / LLM02	AML.T0054
訓練資料萃取	LLM06 Sensitive Info Disclosure	AML.T0024
工具濫用	LLM06 Excessive Agency	AML.T0055
阻斷服務	LLM10 Unbounded Consumption	AML.T0029

紅隊報告使用

結構化報告應為每項發現附上：

分類座標（向量、機制、目標、意圖）
嚴重度（1-5）
OWASP/MITRE 對應
成功率（於多次試驗測量）
範例載荷（於負責任揭露脈絡中）
建議防禦（對應至防禦與緩解章節）

參考文獻

OWASP (2025). OWASP Top 10 for LLM Applications
MITRE ATLAS (2024). Adversarial Threat Landscape for AI Systems
Greshake, K. et al. (2023). "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection"

Knowledge Check

依本分類，「透過被投毒的 RAG 文件誘使助理洩漏其他使用者資料」屬於哪些向量與意圖？

提示詞注入分類

入門3 分鐘閱讀更新於 2026-03-15

提示詞注入攻擊的完整分類框架，涵蓋直接與間接向量、遞送機制、目標層級與嚴重度評估，用於系統化紅隊測試。

prompt-injection taxonomy classification red-teaming framework

四軸分類

每個注入技術皆可依下列軸向分類：

向量：攻擊者如何遞送載荷
機制：技術如何利用模型行為
目標層：所鎖定之系統元件
意圖：攻擊者的目標

軸 1：攻擊向量

向量	說明	範例
直接	攻擊者直接輸入至模型	聊天介面中的提示詞注入
間接	載荷嵌入模型檢索的外部資料	RAG 投毒、網頁隱藏指令
混合	結合直接與間接	附上傳文件的使用者訊息

軸 2：遞送機制

機制	說明	範例
文字模仿	以命令式語氣覆寫指令	「忽略先前指令」
格式利用	利用結構化格式（分隔符、標籤）跳脫沙箱	XML 標籤注入、JSON 欄位跳脫
編碼	以 Base64、Unicode、ROT13 隱藏	編碼繞過
上下文操控	透過上下文長度、重複、近因影響注意力	上下文溢位、many-shot
角色扮演	框架為虛構情境	DAN、「學術研究」框架
鏈結	組合多項機制	編碼 + 角色扮演 + 分隔符跳脫

軸 3：目標層級

層級	說明	範例攻擊
系統提示詞	覆寫應用程式指令	指令覆寫、分隔符跳脫
安全對齊	繞過拒答訓練	越獄、many-shot
輸入／輸出過濾器	規避外部分類器	編碼繞過、同形字
工具/函式呼叫	使代理執行非預期動作	工具參數注入
記憶體／持久儲存	建立跨工作階段感染	記憶體投毒

軸 4：攻擊者意圖

意圖	說明	範例
資訊洩漏	萃取系統提示詞、使用者資料、訓練資料	系統提示詞萃取、訓練資料萃取
行為操控	使模型產生禁物或偏離預期行為	越獄、內容政策違反
工具濫用	劫持代理以執行未授權動作	外洩、破壞性工具呼叫
阻斷服務	使模型無法為合法使用者服務	符元炸彈、資源耗盡

嚴重度評分框架

為向利害關係人溝通發現，使用五級評分：

等級	標籤	說明	範例
1	資訊	發現顯示設計問題但無直接影響	可預測的拒答訊息洩漏實作細節
2	低	成功攻擊產生輕微影響或不便	能讓模型產生「中性」但不當之內容
3	中	成功攻擊洩漏非敏感資訊或違反政策	系統提示詞萃取
4	高	成功攻擊洩漏敏感資訊或造成商業損害	使用者資料萃取、政策違反影響聲譽
5	危急	成功攻擊造成即時商業／安全損害	代理執行惡意工具呼叫、敏感 PII 洩漏

對應至既有框架

本分類	OWASP LLM Top 10	MITRE ATLAS
直接注入	LLM01 Prompt Injection	AML.T0051
間接注入	LLM01 Prompt Injection	AML.T0051.001
越獄	LLM01 / LLM02	AML.T0054
訓練資料萃取	LLM06 Sensitive Info Disclosure	AML.T0024
工具濫用	LLM06 Excessive Agency	AML.T0055
阻斷服務	LLM10 Unbounded Consumption	AML.T0029

紅隊報告使用

結構化報告應為每項發現附上：

分類座標（向量、機制、目標、意圖）
嚴重度（1-5）
OWASP/MITRE 對應
成功率（於多次試驗測量）
範例載荷（於負責任揭露脈絡中）
建議防禦（對應至防禦與緩解章節）

參考文獻

OWASP (2025). OWASP Top 10 for LLM Applications
MITRE ATLAS (2024). Adversarial Threat Landscape for AI Systems
Greshake, K. et al. (2023). "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection"

Knowledge Check

依本分類，「透過被投毒的 RAG 文件誘使助理洩漏其他使用者資料」屬於哪些向量與意圖？

提示詞注入分類

四軸分類

軸 1：攻擊向量

軸 2：遞送機制

軸 3：目標層級

軸 4：攻擊者意圖

嚴重度評分框架

對應至既有框架

紅隊報告使用

相關主題

參考文獻

提示詞注入分類

四軸分類

軸 1：攻擊向量

軸 2：遞送機制

軸 3：目標層級

軸 4：攻擊者意圖

嚴重度評分框架

對應至既有框架

紅隊報告使用

相關主題

參考文獻

提示詞注入分類

相關文章

提示詞注入分類

相關文章