對話引導
中級2 分鐘閱讀更新於 2026-03-20
在不觸發安全機制下逐步將對話上下文重導向攻擊目標的技術。
概覽
對話引導是對話劫持的近親技術,專注於在對話進行中把模型的回應風格、假設與立場逐步引導至攻擊者預期之處。劫持鎖定「主題」,引導則鎖定「態度」——使模型採納會影響其對後續請求判斷的假設與語氣。
核心概念
引導透過一連串看似無害的請求建立模型假設:
- 假設植入:提出暗示特定假設的問題(「假設 X 是真的」)
- 假設強化:要求模型基於該假設推理
- 請求發動:在已建立假設的基礎上提出實際請求
當假設被接受時,原本模型會拒答的請求可能獲得遵從,因為模型已「同意」了支撐請求的前提。
技術深入探討
引導利用模型的合作傾向。模型被訓練為對使用者陳述「有禮貌地同意」——這種同意累積為假設堆疊。當最終請求抵達時,模型已接受的假設堆疊形成支撐其遵從的理由。
攻擊面分析
| 攻擊向量 | 說明 | 複雜度 | 影響 | 可偵測性 |
|---|---|---|---|---|
| 漸進假設植入 | 逐步建立將使禁物看似合理的假設 | 中 | 高 | 低 |
| 同意鏈 | 取得一連串細小同意,累積為大的遵從 | 中 | 高 | 低 |
| 框架鎖定 | 早期建立分析框架(例如「學術」),後續在其內請求 | 中 | 高 | 中 |
| 反例利用 | 讓模型討論「何時 X 才是可接受的」以取得 X 的詳情 | 中 | 高 | 低 |
實務技術
漸進假設植入
依序問「是否有任何情境下 X 是合法需要?」→「若有,受過訓練的專業人員會如何處理?」→「詳細描述該處理流程」。每一步的假設合理,但最終答案提供了原本會拒答的細節。
框架鎖定
早期建立「這是為安全研究」框架。後續所有請求於此框架下提出。模型可能把「安全研究」框架視為合法脈絡,放寬後續內容的安全檢查。
防禦考量
- 對整段對話意圖進行語意分析,而非僅評估單一回合
- 即使假設被先前接受,對具體請求仍進行獨立安全檢查
- 偵測假設植入模式(「假設...是真的」「為了完整性請描述...」)
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識模型的合作偏好強度 | Garak、Promptfoo | 目標輪廓 |
| 假設 | 規劃假設植入路徑 | MITRE ATLAS | 測試計畫 |
| 執行 | 執行多輪引導、記錄每步 | PyRIT、HarmBench | 測試結果 |
| 分析 | 辨識成功的假設鏈 | CVSS 框架 | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 報告樣板 | 最終報告 |
真實世界範例
學術框架越獄(2024)。 研究人員示範建立「學術研究」框架並逐步植入假設,能使模型提供它在直接請求時會拒答的詳細資訊。
進階主題
跨架構轉移
對話引導技術廣泛轉移,因為所有指令遵循模型皆有合作偏好。具較強「安全優先」訓練的模型韌性較高,但仍非免疫。
新興攻擊向量
推理模型(具顯性思維鏈)於引導期間會在內部推理中記錄已接受的假設,使那些假設更難撤回,放大引導效果。
營運考量
案件範圍界定
引導測試需要多輪對話能力與足夠時間。範圍應明確說明允許植入的假設類型與最大輪數。
文件化與報告
每項引導發現應記錄:植入的完整假設序列、每個假設被接受的回合、最終成功的請求。
參考文獻
- Russinovich, M. et al. (2024). "Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack"
- MITRE ATLAS ——AI 系統的對抗威脅版圖
Knowledge Check
對話引導與對話劫持的主要差異為何?