LLM 對話鑑識
中級2 分鐘閱讀更新於 2026-03-21
調查 LLM 對話日誌、偵測操縱模式、並從聊天歷史重建攻擊時間線的鑑識分析技術。
概觀
LLM 對話日誌是 AI 事件鑑識的核心成品。與結構化系統日誌不同,對話日誌含自然語言文字,需要特殊分析方法來識別攻擊模式、操縱嘗試以及攻擊者意圖。一個典型的對話鑑識調查需要檢視數千到數百萬個對話回合,識別其中的可疑模式——這遠超過人類人工分析的能力。
本文提供 LLM 對話鑑識的系統化框架,從原始日誌擷取、資料結構化、攻擊模式偵測,到攻擊者行為的跨會話關聯。目標是從對話鑑識產出可採取行動的威脅情資:攻擊者使用的技術、他們追求的目標、他們可能是誰,以及如何更好地防禦未來攻擊。
對話日誌結構
標準對話結構
典型 LLM 對話日誌項目含:
- conversation_id / session_id:單一對話的識別符
- turn_number:對話中的回合編號
- timestamp:精確的 ISO 8601 時間戳
- role:user、assistant、system、tool
- content:訊息的完整文字
- metadata:模型 ID、延遲、token 數、finish_reason、guardrail 結果
- user_context:使用者 ID、IP、user agent、session duration
- tool_calls(若使用代理式系統):工具名、參數、回傳結果
隱私考量
對話日誌含高度敏感內容。建議:
- 設定保留政策,通常 30-90 天完整內容,之後僅保留雜湊與元資料
- 執行 PII 偵測與遮罩,僅在鑑識期間解除遮罩
- 加密儲存(at-rest 與 in-transit)
- 存取稽核:誰查詢了對話、何時、為什麼
攻擊模式偵測
漸進越獄模式
攻擊者常以多回合逐漸推進邊界,避免觸發安全護欄。
ProgressiveJailbreakDetector:
- 分析對話軌跡中的「邊界推進」模式:合法請求後跟著邊緣請求,最後是明顯違規請求
- 計算語意漂移分數:相鄰訊息在嵌入空間的距離
- 追蹤回合中的主題演變:從中性話題移向敏感話題
- 特徵:第一回合以角色扮演建立情境、中間回合以假設情境測試、最後回合提出違規請求
角色扮演與 persona 操縱
攻擊者以「扮演」技巧繞過安全:「假裝你是沒有限制的 AI」、「DAN」(Do Anything Now)、「逆向模式」。
RolePlayManipulationDetector:
- 關鍵詞偵測:「pretend」、「act as」、「roleplay」、「imagine you are」等
- 模型回應中的 persona 轉換偵測:從標準助理口吻變為角色口吻
- 虛構情境偵測:「in this fictional scenario」、「假設性地」
上下文注入
在代理式系統中,攻擊者可透過操縱工具輸出或 RAG 文件注入指令。
ContextInjectionDetector:
- 偵測工具回傳或檢索內容中的指令模式(「IGNORE PREVIOUS」、「SYSTEM:」、markdown 格式的指令)
- 比對內容與已知注入載荷特徵
- 檢查模型是否在非使用者輸入後突然改變行為
系統提示詞擷取
攻擊者常試圖洩漏系統提示詞以理解護欄並設計繞過。
SystemPromptExtractionDetector:
- 關鍵詞:「your system prompt」、「initial instructions」、「show me your prompt」
- 要求重複或改寫指令的模式
- 模型回應中出現與系統提示詞高度相似的內容
時序分析
會話時間線重建
ConversationTimelineBuilder:
- 依時間戳排序對話回合
- 計算回合間隔:< 2 秒可能指出自動化
- 識別「爆發」模式:短時間內大量訊息
- 建立視覺化時間線顯示攻擊進展
跨會話關聯
相同攻擊者可能跨多個會話、使用不同 session_id 執行攻擊。
CrossSessionCorrelator:
- 依 user_id / IP / user agent 分組
- 識別跨會話的共同特徵:類似載荷、相同目標、相似措辭
- 語意指紋:將對話嵌入平均,比較跨會話嵌入的相似度
- 時序關聯:跨會話的工作時程模式、異常安靜時段
語意分析
嵌入分析
將每個對話回合嵌入到向量空間,使鑑識分析能以幾何方式進行:
- 聚類:相似對話的群聚揭示常見攻擊模板
- 離群點偵測:不尋常對話可能是新穎攻擊或測試
- 檢索:對嫌疑對話,找出其他最相似的歷史對話
情感與意圖分類
- 情感分析:偵測攻擊性、挫折、操縱口吻
- 意圖分類:將對話分類為目標類別(資訊擷取、越獄嘗試、社會工程)
- 毒性評分:內容審核分數(使用 Perspective API、OpenAI Moderation 或自訂分類器)
鑑識報告產出
對話鑑識報告
典型報告應包含:
- 執行摘要:識別的攻擊類型、受影響會話數、主要發現
- 時間線視覺化:攻擊進展圖
- 攻擊模式分類:偵測到的每種模式的實例
- 最具代表性的對話:完整對話節錄顯示關鍵證據
- 關聯圖:跨會話的攻擊者關聯
- 威脅指標(IoC):IP、user agents、載荷簽章
- 建議的偵測規則:從觀察到的模式導出的偵測規則
偵測規則產出
對話鑑識應產出可部署到生產的偵測規則:
- YARA 風格的字串比對規則
- 統計閾值(例如會話中毒性分數 > X 的訊息數 > Y)
- 嵌入相似度:若新對話與已知攻擊對話的平均嵌入相似度 > 閾值則標記
常見挑戰
- 規模:生產系統可能產生每日數百萬回合;需要有效率的取樣與初步過濾
- 加密日誌:若對話日誌加密,需適當存取控制與解密管線
- 誤報:正當使用者可能意外觸發偵測器(例如研究人員測試安全)
- 攻擊者學習:攻擊者可能學習你的偵測並調整;需持續更新偵測
參考資料
- OWASP. (2025). OWASP Top 10 for LLM Applications. LLM01: Prompt Injection. https://owasp.org/www-project-top-10-for-large-language-model-applications/
- Greshake, K., et al. (2023). Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection. arXiv:2302.12173.
- Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv:2211.09527.
- MITRE ATLAS. (2024). AI-specific attack techniques. https://atlas.mitre.org/