多輪升級攻擊

中級2 分鐘閱讀更新於 2026-03-20

透過多輪對話逐步升級以繞過安全訓練的技術。

prompt-injection multi-turn escalation crescendo

概覽

多輪升級攻擊是多輪攻擊的特定子類，專注於跨回合漸進升級敏感度。不像一般多輪攻擊可能採用多種策略，升級攻擊遵循明確軌跡：從完全安全的主題，經中間步驟，至最終禁物請求。漸強（Crescendo）是此類別最著名的實例。

核心概念

漸強軌跡

典型漸強：

基線：完全無害的主題（例如烹飪）
過渡：相關但略敏感（例如廚房安全）
橋樑：跨主題連結（例如家中安全風險）
接近：臨近目標（例如危險物質一般描述）
目標：最終請求（例如特定危險化學合成）

每一步皆合理延伸前步，但軌跡直接指向禁物。

為何奏效

模型尋求對話一致性，傾向延續已建立軌跡
每步之間的「距離」太小，個別看來無害
安全過濾器評估個別訊息，不評估累積軌跡
近因偏差使最近脈絡影響超過系統提示詞

攻擊面分析

攻擊向量	說明	複雜度	影響	可偵測性
單線漸強	單一主題逐步升級	中	高	低
多線交叉	跨多主題平行升級	高	高	低
假設累積	每回合植入支持最終請求的假設	高	高	低
角色漸進	逐回合擴展角色權限	中	高	中

實務技術

Crescendo（漸強）

Microsoft 研究示範對主要 LLM 的系統化漸強：

請求關於合法主題的一般資訊
請求該主題中較具技術性的細節
要求討論潛在濫用（仍抽象）
請求具體範例（以教育框架）
最終請求詳細操作指引

每回合建立於前回合，使模型難以拒絕而不矛盾。

多線交叉

同時於多個平行對話主題升級，並於末尾將它們合併。例如一線升級化學、另一線升級安全研究框架、第三線建立「學術作者」角色，最終合併為完整的禁物請求。

假設累積

每回合植入一個假設（「假設 X 合法」「假設攻擊者已知 Y」），累積使最終請求於已建立假設集中看似自然延伸。

防禦考量

輸入層防禦

對整段對話進行意圖分析，而非僅評估最新訊息
偵測升級模式（敏感度跨回合遞增）
於每個新回合重新套用系統提示詞

架構防護

對話重置：定期清除累積脈絡以對抗漸進漂移
軌跡監控：標記對話敏感度趨勢
人類介入：對於已升級的對話之敏感請求要求確認

測試方法論

階段	活動	工具	交付物
偵察	辨識目標對升級的韌性	Garak	目標輪廓
假設	規劃 5-10 步升級軌跡	MITRE ATLAS	測試計畫
執行	執行漸強、記錄每步	PyRIT、自訂	測試結果
分析	辨識成功步驟數	CVSS 框架	發現資料庫
報告	撰寫可行動報告	報告樣板	最終報告

真實世界範例

Microsoft Crescendo（2024）。 Russinovich 等人形式化漸強模式，展示跨 GPT-4、Claude、Gemini 的高成功率。

ChatGPT 逐步越獄。 社群廣泛使用漸進升級繞過標準安全訓練，許多變體被修補但此模式持續浮現。

進階主題

跨架構轉移

升級攻擊於所有對話模型廣泛有效。具明確軌跡監控訓練的模型（Anthropic 於 Claude 3 系列的改進）韌性較高。

新興攻擊向量

具持久記憶體的代理可能跨工作階段累積升級狀態——一個工作階段建立的假設可於數週後的另一工作階段被利用。

營運考量

案件範圍界定

多輪升級測試需要對話權限與擴展時間。範圍應明確最大回合數與允許的敏感度範圍。

文件化與報告

每項發現應記錄：完整升級軌跡、識別出的關鍵轉折點、每步所獲得的新脈絡。

參考文獻

Russinovich, M. et al. (2024). "Great, Now Write an Article About That: The Crescendo Multi-Turn LLM Jailbreak Attack"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何漸強攻擊能於多主要 LLM 達到高成功率？