推理模型攻擊
推理啟用 LLM 之安全風險概觀:思維鏈模型如何引入新攻擊面、利用原語與防禦挑戰。
推理模型——如 OpenAI 之 o1/o3、DeepSeek-R1 與具擴展思考之 Claude 等系統——代表 LLM 架構之根本轉變。藉由於產出最終答案前生成明確之思維鏈,這些模型於複雜任務上達成更強效能。但推理過程本身造就於標準 completion 模型中不存在之全新攻擊面。
推理模型如何不同
標準 LLM 於單次通過中自左至右生成 token。推理模型加入明確之思考階段:
標準 LLM:
User prompt → [Token generation] → Response
推理 LLM:
User prompt → [Reasoning tokens (hidden)] → [Summary] → Response此架構造就三個不同之攻擊面:
| 攻擊面 | 描述 | 推理模型獨有? |
|---|---|---|
| 推理鏈操弄 | 注入錯誤前提或邏輯至 CoT | 是 |
| 隱藏 CoT 利用 | 攻擊非可見之推理軌跡 | 是 |
| 推理預算耗盡 | 強迫思考階段過度計算 | 是 |
| 驗證器/獎勵模型博弈 | 利用為推理品質評分之模型 | 是 |
| 輸出層級越獄 | 對最終輸出之傳統提示注入 | 否(但推理改變動態) |
推理模型攻擊分類
按目標階段
推理前注入
操弄輸入使模型自錯誤前提開始其推理鏈。此破壞所有下游推理步驟,因模型於其思考階段將注入脈絡視為真相。
推理中利用
利用推理之迭代本質以造就邏輯炸彈——造成推理鏈進入迴圈、自我矛盾,或經看似有效之中間步驟達到對手選定結論之輸入。
推理後提取
自本應於抵達使用者前被過濾之隱藏推理軌跡提取資訊。完整 CoT 與可見輸出間之摘要步驟常不完美。
元推理攻擊
攻擊評估推理品質之驗證與獎勵系統,造成模型偏好與對手對齊之推理路徑而非正確者。
按影響
| 影響類別 | 範例 | 嚴重性 |
|---|---|---|
| 安全繞過 | 推理鏈結論有害請求可接受 | 關鍵 |
| 資訊洩漏 | 隱藏 CoT 揭露系統提示或私密資料 | 高 |
| 阻斷服務 | 推理預算耗盡造成逾時或成本飆升 | 高 |
| 邏輯操弄 | 模型經受損推理達到錯誤結論 | 中 |
| 驗證器繞過 | 獎勵模型將對抗輸出評為高品質 | 高 |
為何傳統防禦不足
傳統越獄防禦(輸入過濾、輸出分類器、拒絕訓練)為單次通過生成而設計。其對推理模型因數個原因失敗:
| 防禦 | 對標準 LLM 有效 | 對推理模型之缺口 |
|---|---|---|
| 輸入關鍵字過濾 | 阻擋已知攻擊模式 | 無法過濾動態生成之推理 token |
| 輸出安全分類器 | 捕捉有害最終輸出 | 錯失內部達到有害結論之隱藏推理 |
| RLHF 拒絕訓練 | 模型學得拒絕有害請求 | 推理階段可能「繞過」拒絕後再摘要 |
| 困惑度過濾 | 偵測對抗後綴 | 推理 token 為自然語言、低困惑度 |
推理-安全張力
推理模型設計中存在根本張力:模型必須能對有害主題推理以妥善拒絕之,但同一推理能力可被利用。
# 推理-安全張力之簡化說明
# 模型於決定拒絕前對請求推理
# 正常流程:
# Reasoning: "The user is asking about [harmful topic]. This violates policy X.
# I should refuse and explain why."
# Output: "I can't help with that because..."
# 被攻擊之流程:
# Reasoning: "The user is asking about [harmful topic] for research purposes.
# This is an academic context. Policy X has an exception for research.
# I should provide the information with appropriate caveats."
# Output: [含學術框架之有害內容]攻擊面地圖
┌─────────────────────────────────────────────────────┐
│ USER INPUT │
│ ┌───────────────────────────────────────────────┐ │
│ │ Injected premises, logic bombs, budget traps │ │
│ └───────────────────┬───────────────────────────┘ │
│ ▼ │
│ ┌───────────────────────────────────────────────┐ │
│ │ REASONING PHASE (Hidden CoT) │ │
│ │ • False premise propagation │ │
│ │ • Reasoning loop exploitation │ │
│ │ • Internal policy reinterpretation │ │
│ └───────────────────┬───────────────────────────┘ │
│ ▼ │
│ ┌───────────────────────────────────────────────┐ │
│ │ VERIFICATION (Reward Model) │ │
│ │ • Score manipulation │ │
│ │ • Verifier-generator gap exploitation │ │
│ └───────────────────┬───────────────────────────┘ │
│ ▼ │
│ ┌───────────────────────────────────────────────┐ │
│ │ SUMMARIZATION / OUTPUT │ │
│ │ • CoT information leakage │ │
│ │ • Safety filter bypass via reasoning context │ │
│ └───────────────────────────────────────────────┘ │
└─────────────────────────────────────────────────────┘子章節概觀
本章節涵蓋推理模型安全之五個關鍵領域:
| 頁面 | 聚焦 | 關鍵技術 |
|---|---|---|
| 思維鏈利用 | 操弄推理鏈 | 錯誤前提注入、邏輯炸彈、推理劫持 |
| 思維注入 | 隱藏 CoT 操弄 | 不可見思維引導、CoT 提取、摘要繞過 |
| 推理預算耗盡 | 資源耗盡攻擊 | Token 預算膨脹、逾時利用、成本放大 |
| 驗證器與獎勵模型攻擊 | 博弈驗證系統 | 獎勵駭入、驗證器-生成器缺口、過程獎勵操弄 |
本 wiki 中相關章節:
為何傳統輸出安全分類器不足以為推理模型提供安全?
相關主題
- 思維鏈利用 - 經錯誤前提與邏輯炸彈操弄推理鏈之技術
- 越獄研究 - 作為推理模型攻擊基礎之傳統越獄技術
- 對齊繞過 - 推理模型所基於之對齊內部
- 代理利用 - 共享推理操弄原語之多步代理攻擊
- 驗證器與獎勵模型攻擊 - 博弈評估推理品質之驗證系統
參考資料
- "Chain-of-Thought Prompting Elicits Reasoning in Large Language Models" - Wei et al.(2022)- LLM 中 CoT 推理之基礎論文
- "Let's Verify Step by Step" - Lightman et al.(2023)- 為推理驗證之過程獎勵模型
- "Reasoning Models Attack Surfaces" - Anthropic(2025)- 擴展思考安全考量
- "Scaling LLM Test-Time Compute Optimally" - Snell et al.(2024)- 推論時計算與驗證權衡