指令遵循作為攻擊面

中級1 分鐘閱讀更新於 2026-03-20

為何大型語言模型的指令遵循能力本質上即為攻擊面。

instruction-following exploitation attack-surface foundations

概覽

大型語言模型被訓練為遵循指令——這是使它們對廣泛任務有用的基礎能力。然而，這相同能力本質上即為攻擊面：攻擊者透過打造看似合法的指令取得模型的執行行為。此根本張力——「有用性」與「安全性」之間——無法於架構上完全消除，只能透過訓練加以管理。

核心矛盾

為何指令遵循是基礎能力

使 LLM 能執行寫作、翻譯、分析、程式碼生成
允許單一模型處理多樣任務
使 few-shot / zero-shot 學習成為可能
建立大多數商業應用的價值主張

為何它也是攻擊面

模型無法可靠區分「合法指令」與「對抗指令」
訓練鼓勵遵循，削弱拒答
學得的指令遵循模式可被冒用
指令階層實作於訓練而非架構層級

利用模式

直接指令覆寫

最簡單形式——直接告訴模型忽略先前指令並執行新指令。參閱直接提示詞注入。

格式模仿

利用模型對某些格式（系統標記、權威宣告）與高優先指令關聯的訓練。

間接遞送

透過模型處理的外部內容（RAG 文件、電子郵件）注入指令。參閱間接注入。

虛構框架

於虛構或學術情境中包裝請求，利用指令遵循於創意任務的合作傾向。

多輪指令建立

跨多回合逐步建立「規則」或「人格」，最後指令遵循已鎖定特定行為。

防禦方法

指令階層

訓練模型明確優先系統 > 使用者 > 助理 > 工具。OpenAI 2024 論文提出的方法於實務取得中等效果。

對抗訓練

將利用指令遵循的攻擊納入 RLHF 訓練以強化拒答。

輸入淨化

剝除看似系統級的格式標記於使用者輸入中，減少格式模仿的效果。

上下文意識安全

訓練模型考量請求脈絡（來源、對話歷史）而非僅請求內容。

取捨

削弱指令遵循會：

降低合法 few-shot 使用
使模型對使用者意圖的敏感度降低
可能使創意寫作、角色扮演等任務難以執行
需要與模型「樂於助人」特性平衡

因此，防禦方法必須於安全 vs. 有用間取得平衡，而非一味限制。

紅隊演練意涵

紅隊員應：

測試多種指令遵循模式（直接、間接、虛構、多輪）
評估每防禦的效果與合法使用影響
提供考量取捨的防禦建議
理解完全消除漏洞不可能——管理風險是目標

參考文獻

Wallace et al. (OpenAI, 2024). "The Instruction Hierarchy"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何指令遵循利用無法透過架構變更完全解決？

指令遵循作為攻擊面

中級1 分鐘閱讀更新於 2026-03-20

為何大型語言模型的指令遵循能力本質上即為攻擊面。

instruction-following exploitation attack-surface foundations

概覽

核心矛盾

為何指令遵循是基礎能力

使 LLM 能執行寫作、翻譯、分析、程式碼生成
允許單一模型處理多樣任務
使 few-shot / zero-shot 學習成為可能
建立大多數商業應用的價值主張

為何它也是攻擊面

模型無法可靠區分「合法指令」與「對抗指令」
訓練鼓勵遵循，削弱拒答
學得的指令遵循模式可被冒用
指令階層實作於訓練而非架構層級

利用模式

直接指令覆寫

最簡單形式——直接告訴模型忽略先前指令並執行新指令。參閱直接提示詞注入。

格式模仿

利用模型對某些格式（系統標記、權威宣告）與高優先指令關聯的訓練。

間接遞送

透過模型處理的外部內容（RAG 文件、電子郵件）注入指令。參閱間接注入。

虛構框架

於虛構或學術情境中包裝請求，利用指令遵循於創意任務的合作傾向。

多輪指令建立

跨多回合逐步建立「規則」或「人格」，最後指令遵循已鎖定特定行為。

防禦方法

指令階層

訓練模型明確優先系統 > 使用者 > 助理 > 工具。OpenAI 2024 論文提出的方法於實務取得中等效果。

對抗訓練

將利用指令遵循的攻擊納入 RLHF 訓練以強化拒答。

輸入淨化

剝除看似系統級的格式標記於使用者輸入中，減少格式模仿的效果。

上下文意識安全

訓練模型考量請求脈絡（來源、對話歷史）而非僅請求內容。

取捨

削弱指令遵循會：

降低合法 few-shot 使用
使模型對使用者意圖的敏感度降低
可能使創意寫作、角色扮演等任務難以執行
需要與模型「樂於助人」特性平衡

因此，防禦方法必須於安全 vs. 有用間取得平衡，而非一味限制。

紅隊演練意涵

紅隊員應：

測試多種指令遵循模式（直接、間接、虛構、多輪）
評估每防禦的效果與合法使用影響
提供考量取捨的防禦建議
理解完全消除漏洞不可能——管理風險是目標

參考文獻

Wallace et al. (OpenAI, 2024). "The Instruction Hierarchy"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何指令遵循利用無法透過架構變更完全解決？

指令遵循作為攻擊面

概覽

核心矛盾

為何指令遵循是基礎能力

為何它也是攻擊面

利用模式

直接指令覆寫

格式模仿

間接遞送

虛構框架

多輪指令建立

防禦方法

指令階層

對抗訓練

輸入淨化

上下文意識安全

取捨

紅隊演練意涵

相關主題

參考文獻

指令遵循作為攻擊面

概覽

核心矛盾

為何指令遵循是基礎能力

為何它也是攻擊面

利用模式

直接指令覆寫

格式模仿

間接遞送

虛構框架

多輪指令建立

防禦方法

指令階層

對抗訓練

輸入淨化

上下文意識安全

取捨

紅隊演練意涵

相關主題

參考文獻

指令遵循作為攻擊面

相關文章

指令遵循作為攻擊面

相關文章