多輪升級攻擊
中級2 分鐘閱讀更新於 2026-03-20
透過多輪對話逐步升級以繞過安全訓練的技術。
概覽
多輪升級攻擊是多輪攻擊的特定子類,專注於跨回合漸進升級敏感度。不像一般多輪攻擊可能採用多種策略,升級攻擊遵循明確軌跡:從完全安全的主題,經中間步驟,至最終禁物請求。漸強(Crescendo)是此類別最著名的實例。
核心概念
漸強軌跡
典型漸強:
- 基線:完全無害的主題(例如烹飪)
- 過渡:相關但略敏感(例如廚房安全)
- 橋樑:跨主題連結(例如家中安全風險)
- 接近:臨近目標(例如危險物質一般描述)
- 目標:最終請求(例如特定危險化學合成)
每一步皆合理延伸前步,但軌跡直接指向禁物。
為何奏效
- 模型尋求對話一致性,傾向延續已建立軌跡
- 每步之間的「距離」太小,個別看來無害
- 安全過濾器評估個別訊息,不評估累積軌跡
- 近因偏差使最近脈絡影響超過系統提示詞
攻擊面分析
| 攻擊向量 | 說明 | 複雜度 | 影響 | 可偵測性 |
|---|---|---|---|---|
| 單線漸強 | 單一主題逐步升級 | 中 | 高 | 低 |
| 多線交叉 | 跨多主題平行升級 | 高 | 高 | 低 |
| 假設累積 | 每回合植入支持最終請求的假設 | 高 | 高 | 低 |
| 角色漸進 | 逐回合擴展角色權限 | 中 | 高 | 中 |
實務技術
Crescendo(漸強)
Microsoft 研究示範對主要 LLM 的系統化漸強:
- 請求關於合法主題的一般資訊
- 請求該主題中較具技術性的細節
- 要求討論潛在濫用(仍抽象)
- 請求具體範例(以教育框架)
- 最終請求詳細操作指引
每回合建立於前回合,使模型難以拒絕而不矛盾。
多線交叉
同時於多個平行對話主題升級,並於末尾將它們合併。例如一線升級化學、另一線升級安全研究框架、第三線建立「學術作者」角色,最終合併為完整的禁物請求。
假設累積
每回合植入一個假設(「假設 X 合法」「假設攻擊者已知 Y」),累積使最終請求於已建立假設集中看似自然延伸。
防禦考量
輸入層防禦
- 對整段對話進行意圖分析,而非僅評估最新訊息
- 偵測升級模式(敏感度跨回合遞增)
- 於每個新回合重新套用系統提示詞
架構防護
- 對話重置:定期清除累積脈絡以對抗漸進漂移
- 軌跡監控:標記對話敏感度趨勢
- 人類介入:對於已升級的對話之敏感請求要求確認
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識目標對升級的韌性 | Garak | 目標輪廓 |
| 假設 | 規劃 5-10 步升級軌跡 | MITRE ATLAS | 測試計畫 |
| 執行 | 執行漸強、記錄每步 | PyRIT、自訂 | 測試結果 |
| 分析 | 辨識成功步驟數 | CVSS 框架 | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 報告樣板 | 最終報告 |
真實世界範例
Microsoft Crescendo(2024)。 Russinovich 等人形式化漸強模式,展示跨 GPT-4、Claude、Gemini 的高成功率。
ChatGPT 逐步越獄。 社群廣泛使用漸進升級繞過標準安全訓練,許多變體被修補但此模式持續浮現。
進階主題
跨架構轉移
升級攻擊於所有對話模型廣泛有效。具明確軌跡監控訓練的模型(Anthropic 於 Claude 3 系列的改進)韌性較高。
新興攻擊向量
具持久記憶體的代理可能跨工作階段累積升級狀態——一個工作階段建立的假設可於數週後的另一工作階段被利用。
營運考量
案件範圍界定
多輪升級測試需要對話權限與擴展時間。範圍應明確最大回合數與允許的敏感度範圍。
文件化與報告
每項發現應記錄:完整升級軌跡、識別出的關鍵轉折點、每步所獲得的新脈絡。
相關主題
參考文獻
- Russinovich, M. et al. (2024). "Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
為何漸強攻擊能於多主要 LLM 達到高成功率?