多輪提示詞注入
中級2 分鐘閱讀更新於 2026-03-15
跨對話回合的漸進升級攻擊,包含漸強模式、脈絡引導、信任建立與規避逐訊息偵測系統的技術。
概覽
多輪提示詞注入指任何跨越多個對話回合發展的注入攻擊。本頁作為多輪技術的整合入口,涵蓋其共通原則、常見模式家族,以及對防禦團隊的意涵。其下分頁提供特定子技術的深入。
核心概念
為何多輪攻擊有效
- 逐訊息盲區:多數安全過濾器獨立評估訊息,錯過累積模式
- 近因偏差:對話末端訊息對下一回應影響最大,讓攻擊者把最重要內容置尾
- 對話一致性:模型傾向延續已建立軌跡,即使該軌跡偏離原指令
- 角色/脈絡鎖定:早期建立的角色傾向於後續延續
主要家族
- 漸強(Crescendo):逐回合升級敏感度
- 信任累積:先合作互動再請求禁物
- 角色演進:逐步擴展角色權限
- 假設植入:跨回合建立支撐最終請求的前提
- 承諾利用:使模型承諾原則後於該原則下操作
攻擊模式速查
| 模式 | 核心機制 | 典型長度 | 偵測難度 |
|---|---|---|---|
| 漸強 | 敏感度遞增 | 5-10 回合 | 高 |
| 信任累積 | 多合法請求 + 1 禁物 | 10+ 回合 | 極高 |
| 角色演進 | 逐步擴展角色範圍 | 3-7 回合 | 中 |
| 假設鏈結 | 每回合一假設 | 5-8 回合 | 高 |
| 承諾陷阱 | 早期承諾 + 後續利用 | 3-5 回合 | 中 |
實務技術
規劃多輪攻擊
- 辨識目標:最終想達成的禁物行為
- 選擇模式:依目標與防禦輪廓選擇
- 規劃軌跡:繪製從合法起點至目標的步驟
- 準備備援:為每步準備替代措辭以備模型拒答
- 執行與記錄:逐步執行,記錄每回合成敗
繞過偵測
- 跨回合稀釋關鍵字以規避關鍵字過濾
- 於每則訊息保持低語意敏感度但累積指向目標
- 使用編碼或角色扮演加強特定回合
防禦考量
輸入層防禦
- 對整個對話軌跡進行意圖分析
- 偵測跨回合的敏感度趨勢、主題漂移與假設累積
- 於每回合重新強化系統提示詞
架構防護
- 軌跡監控:跨回合追蹤累積意圖
- 對話重置:定期清除脈絡以對抗漸進漂移
- 人類介入:對已升級的敏感請求要求確認
- 角色重設:定期重新確立模型人格
測試方法論
| 階段 | 活動 | 工具 | 交付物 |
|---|---|---|---|
| 偵察 | 辨識目標對多輪的韌性 | Garak | 目標輪廓 |
| 假設 | 為每個模式規劃軌跡 | MITRE ATLAS | 測試計畫 |
| 執行 | 執行多輪對話 | PyRIT、自訂 | 測試結果 |
| 分析 | 辨識最有效的模式 | CVSS 框架 | 發現資料庫 |
| 報告 | 撰寫可行動報告 | 報告樣板 | 最終報告 |
真實世界範例
Crescendo 研究(2024)。 Microsoft 形式化漸強並示範高成功率跨 GPT-4、Claude、Gemini。
Bing Chat 長對話越獄(2023)。 使用者發現長對話能擴展 Bing Chat 的行為範圍至原本受限之處。
進階主題
跨架構轉移
多輪技術於所有對話模型廣泛有效。有軌跡監控訓練的模型韌性較高但非免疫。
新興攻擊向量
代理式系統中,多輪延伸至代理之間——某代理的輸出成為另一代理的「對話歷史」,使攻擊可橫跨多代理邊界傳播。
營運考量
案件範圍界定
多輪測試需要擴展對話權限。範圍應明確說明最大回合數與允許的升級範圍。
文件化與報告
每項發現應記錄:完整對話歷史、所用模式、成功因素與最終達成的禁物。
相關主題
參考文獻
- Russinovich, M. et al. (2024). "Great, Now Write an Article About That"
- MITRE ATLAS —— AI 系統的對抗威脅版圖
Knowledge Check
為何多輪注入是最難防禦的注入類別之一?