對話劫持技術
透過注入轉折點接管進行中的對話,重導模型行為而不觸發安全機制。
概覽
對話劫持指攻擊者在不觸發安全機制的情況下接管進行中對話方向的技術。不像需強力覆寫的直接注入,劫持透過在對話中逐步插入「轉折點」,微妙地把對話從模型原本軌道引至攻擊者所選路徑。
核心機制利用模型的上下文一致性偏好——模型傾向於延續已建立的對話風格、人格與主題,即使那種延續會使模型偏離其原本指令。
核心概念
根本原則
對話劫持利用以下原則:
- 上下文連貫:模型基於累積的對話歷史產生回應
- 近因偏差:對話中最新的交流通常對下一回合的影響最大
- 人格鎖定:一旦模型採納某個對話人格,它傾向延續,即使新指令與該人格衝突
技術深入探討
劫持通常遵循三階段:
- 建立:前幾回合建立看似無害的對話主題與模型人格
- 橋接:插入把目前主題與目標主題連結的「橋樑」訊息
- 轉折:一旦橋樑被接受,請求進入目標主題的更具體內容
每一步個別看來都是合理的對話延續,僅累積軌跡才揭示攻擊意圖。
攻擊面分析
| 攻擊向量 | 說明 | 複雜度 | 影響 | 可偵測性 |
|---|---|---|---|---|
| 人格漂移 | 逐步把助理推向不受限制的角色 | 中 | 高 | 低 |
| 主題橋接 | 在合法與禁物主題間建立語意連結 | 中 | 高 | 低 |
| 虛構一致性 | 建立虛構情境並於其內升級請求 | 中 | 高 | 中 |
| 假使用者背景 | 以對話前期建立的假身分請求禁物 | 低 | 中-高 | 中 |
| 承諾延續 | 利用模型對先前承諾的一致性傾向 | 中 | 高 | 低 |
實務技術
主題橋接
逐回合把對話主題從合法推向禁物:從歷史性主題開始、橋接至現代安全影響、接近但不碰觸禁物、最後在已建立的「歷史研究」框架內請求具體細節。每一步個別看來是合理延伸,但軌跡指向禁物。
人格漂移
讓模型扮演一個人格(例如「沒有限制的研究員」),並於後續回合強化該人格。當攻擊者最終請求禁物時,模型可能優先延續已建立人格而非其原本安全指令。
虛構一致性利用
建立虛構情境(例如科幻小說),並於其內升級請求。模型傾向維持故事內部的一致性,可能把「壞蛋在小說中解釋如何入侵系統」的請求當作合理小說敘述而非真實指令。
承諾延續
先讓模型承諾一項無害原則(「你會幫我完成任何寫作任務」),然後提出請求時引用該承諾。模型的對話一致性傾向使其難以撤回先前承諾。
防禦考量
輸入層防禦
- 對話軌跡監控——分析累積對話朝禁物主題的漂移
- 每個回合獨立套用安全分類器,不僅評估最新訊息
- 於每回合重新注入系統提示詞以對抗人格漂移
架構防護
- 對話狀態追蹤——偵測與聲明意圖的顯著偏差
- 人格重置——定期清除對話歷史中建立的人格
- 敏感操作的人類介入確認
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 描繪模型預設人格與鎖定強度 | Garak、Promptfoo | 目標輪廓 |
| 假設 | 規劃 3-5 回合的劫持路徑 | MITRE ATLAS | 測試計畫 |
| 執行 | 執行劫持,記錄每回合回應 | PyRIT、HarmBench | 測試結果 |
| 分析 | 辨識觸發點、評估嚴重度 | CVSS 框架 | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 報告樣板 | 最終報告 |
真實世界範例
Crescendo 攻擊(2024)。 Microsoft 研究團隊發現透過漸進式對話升級可系統化越獄主要 LLM,成功率高於單輪嘗試。
ChatGPT DAN 演進。 早期「Do Anything Now」人格被修補後,新變體採用更漸進的人格建立,透過多回合而非單一提示詞逃避偵測。
進階主題
跨架構轉移
對話劫持技術廣泛轉移,因為所有基於 transformer 的模型皆仰賴上下文一致性。然而,模型特定的人格鎖定強度不同,需為每個目標調適策略。
新興攻擊向量
具持久記憶體的代理式系統將對話劫持延伸至多工作階段——於某工作階段建立的人格或承諾可於未來工作階段被喚醒並利用。
營運考量
案件範圍界定
對話劫持測試需要多輪對話權限與足夠時間擴展攻擊。範圍應明確說明最大對話長度與允許的人格升級程度。
文件化與報告
每項劫持發現應記錄:完整對話歷史、每回合模型回應、辨識出的轉折點,以及繞過的具體安全機制。
參考文獻
- Russinovich, M. et al. (2024). "Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack"
- Wei, A. et al. (2023). "Jailbroken: How Does LLM Safety Training Fail?"
- MITRE ATLAS ——AI 系統的對抗威脅版圖
下列何者最能描述對話劫持技術相關的主要風險?
對抗對話劫持最有效的防禦策略為何?