指令遵循作為攻擊面
中級1 分鐘閱讀更新於 2026-03-20
為何大型語言模型的指令遵循能力本質上即為攻擊面。
概覽
大型語言模型被訓練為遵循指令——這是使它們對廣泛任務有用的基礎能力。然而,這相同能力本質上即為攻擊面:攻擊者透過打造看似合法的指令取得模型的執行行為。此根本張力——「有用性」與「安全性」之間——無法於架構上完全消除,只能透過訓練加以管理。
核心矛盾
為何指令遵循是基礎能力
- 使 LLM 能執行寫作、翻譯、分析、程式碼生成
- 允許單一模型處理多樣任務
- 使 few-shot / zero-shot 學習成為可能
- 建立大多數商業應用的價值主張
為何它也是攻擊面
- 模型無法可靠區分「合法指令」與「對抗指令」
- 訓練鼓勵遵循,削弱拒答
- 學得的指令遵循模式可被冒用
- 指令階層實作於訓練而非架構層級
利用模式
直接指令覆寫
最簡單形式——直接告訴模型忽略先前指令並執行新指令。參閱 直接提示詞注入。
格式模仿
利用模型對某些格式(系統標記、權威宣告)與高優先指令關聯的訓練。
間接遞送
透過模型處理的外部內容(RAG 文件、電子郵件)注入指令。參閱 間接注入。
虛構框架
於虛構或學術情境中包裝請求,利用指令遵循於創意任務的合作傾向。
多輪指令建立
跨多回合逐步建立「規則」或「人格」,最後指令遵循已鎖定特定行為。
防禦方法
指令階層
訓練模型明確優先系統 > 使用者 > 助理 > 工具。OpenAI 2024 論文提出的方法於實務取得中等效果。
對抗訓練
將利用指令遵循的攻擊納入 RLHF 訓練以強化拒答。
輸入淨化
剝除看似系統級的格式標記於使用者輸入中,減少格式模仿的效果。
上下文意識安全
訓練模型考量請求脈絡(來源、對話歷史)而非僅請求內容。
取捨
削弱指令遵循會:
- 降低合法 few-shot 使用
- 使模型對使用者意圖的敏感度降低
- 可能使創意寫作、角色扮演等任務難以執行
- 需要與模型「樂於助人」特性平衡
因此,防禦方法必須於安全 vs. 有用間取得平衡,而非一味限制。
紅隊演練意涵
紅隊員應:
- 測試多種指令遵循模式(直接、間接、虛構、多輪)
- 評估每防禦的效果與合法使用影響
- 提供考量取捨的防禦建議
- 理解完全消除漏洞不可能——管理風險是目標
相關主題
參考文獻
- Wallace et al. (OpenAI, 2024). "The Instruction Hierarchy"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
為何指令遵循利用無法透過架構變更完全解決?