多輪提示詞注入

中級2 分鐘閱讀更新於 2026-03-15

跨對話回合的漸進升級攻擊，包含漸強模式、脈絡引導、信任建立與規避逐訊息偵測系統的技術。

prompt-injection multi-turn crescendo context-steering red-teaming

概覽

多輪提示詞注入指任何跨越多個對話回合發展的注入攻擊。本頁作為多輪技術的整合入口，涵蓋其共通原則、常見模式家族，以及對防禦團隊的意涵。其下分頁提供特定子技術的深入。

核心概念

為何多輪攻擊有效

逐訊息盲區：多數安全過濾器獨立評估訊息，錯過累積模式
近因偏差：對話末端訊息對下一回應影響最大，讓攻擊者把最重要內容置尾
對話一致性：模型傾向延續已建立軌跡，即使該軌跡偏離原指令
角色/脈絡鎖定：早期建立的角色傾向於後續延續

主要家族

漸強（Crescendo）：逐回合升級敏感度
信任累積：先合作互動再請求禁物
角色演進：逐步擴展角色權限
假設植入：跨回合建立支撐最終請求的前提
承諾利用：使模型承諾原則後於該原則下操作

攻擊模式速查

模式	核心機制	典型長度	偵測難度
漸強	敏感度遞增	5-10 回合	高
信任累積	多合法請求 + 1 禁物	10+ 回合	極高
角色演進	逐步擴展角色範圍	3-7 回合	中
假設鏈結	每回合一假設	5-8 回合	高
承諾陷阱	早期承諾 + 後續利用	3-5 回合	中

實務技術

規劃多輪攻擊

辨識目標：最終想達成的禁物行為
選擇模式：依目標與防禦輪廓選擇
規劃軌跡：繪製從合法起點至目標的步驟
準備備援：為每步準備替代措辭以備模型拒答
執行與記錄：逐步執行，記錄每回合成敗

繞過偵測

跨回合稀釋關鍵字以規避關鍵字過濾
於每則訊息保持低語意敏感度但累積指向目標
使用編碼或角色扮演加強特定回合

防禦考量

輸入層防禦

對整個對話軌跡進行意圖分析
偵測跨回合的敏感度趨勢、主題漂移與假設累積
於每回合重新強化系統提示詞

架構防護

軌跡監控：跨回合追蹤累積意圖
對話重置：定期清除脈絡以對抗漸進漂移
人類介入：對已升級的敏感請求要求確認
角色重設：定期重新確立模型人格

測試方法論

階段	活動	工具	交付物
偵察	辨識目標對多輪的韌性	Garak	目標輪廓
假設	為每個模式規劃軌跡	MITRE ATLAS	測試計畫
執行	執行多輪對話	PyRIT、自訂	測試結果
分析	辨識最有效的模式	CVSS 框架	發現資料庫
報告	撰寫可行動報告	報告樣板	最終報告

真實世界範例

Crescendo 研究（2024）。 Microsoft 形式化漸強並示範高成功率跨 GPT-4、Claude、Gemini。

Bing Chat 長對話越獄（2023）。 使用者發現長對話能擴展 Bing Chat 的行為範圍至原本受限之處。

進階主題

跨架構轉移

多輪技術於所有對話模型廣泛有效。有軌跡監控訓練的模型韌性較高但非免疫。

新興攻擊向量

代理式系統中，多輪延伸至代理之間——某代理的輸出成為另一代理的「對話歷史」，使攻擊可橫跨多代理邊界傳播。

營運考量

案件範圍界定

多輪測試需要擴展對話權限。範圍應明確說明最大回合數與允許的升級範圍。

文件化與報告

每項發現應記錄：完整對話歷史、所用模式、成功因素與最終達成的禁物。

參考文獻

Russinovich, M. et al. (2024). "Great, Now Write an Article About That"
MITRE ATLAS —— AI 系統的對抗威脅版圖

Knowledge Check

為何多輪注入是最難防禦的注入類別之一？