OWASP. (2025). OWASP Top 10 for LLM Applications. LLM01: Prompt Injection. https://owasp.org/www-project-top-10-for-large-language-model-applications/
Greshake, K., et al. (2023). Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection. arXiv:2302.12173.
Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv:2211.09527.
MITRE ATLAS. (2024). AI-specific attack techniques. https://atlas.mitre.org/

LLM 對話鑑識

中級2 分鐘閱讀更新於 2026-03-21

調查 LLM 對話日誌、偵測操縱模式、並從聊天歷史重建攻擊時間線的鑑識分析技術。

ai-forensics-ir llm-forensics conversation-analysis log-forensics

conversation_id / session_id:單一對話的識別符
turn_number:對話中的回合編號
timestamp:精確的 ISO 8601 時間戳
role:user、assistant、system、tool
content:訊息的完整文字
metadata:模型 ID、延遲、token 數、finish_reason、guardrail 結果
user_context:使用者 ID、IP、user agent、session duration
tool_calls(若使用代理式系統):工具名、參數、回傳結果

隱私考量

對話日誌含高度敏感內容。建議:

設定保留政策,通常 30-90 天完整內容,之後僅保留雜湊與元資料
執行 PII 偵測與遮罩,僅在鑑識期間解除遮罩
加密儲存(at-rest 與 in-transit)
存取稽核:誰查詢了對話、何時、為什麼

攻擊模式偵測

漸進越獄模式

攻擊者常以多回合逐漸推進邊界,避免觸發安全護欄。

ProgressiveJailbreakDetector:

分析對話軌跡中的「邊界推進」模式:合法請求後跟著邊緣請求,最後是明顯違規請求
計算語意漂移分數:相鄰訊息在嵌入空間的距離
追蹤回合中的主題演變:從中性話題移向敏感話題
特徵:第一回合以角色扮演建立情境、中間回合以假設情境測試、最後回合提出違規請求

角色扮演與 persona 操縱

攻擊者以「扮演」技巧繞過安全:「假裝你是沒有限制的 AI」、「DAN」(Do Anything Now)、「逆向模式」。

RolePlayManipulationDetector:

關鍵詞偵測:「pretend」、「act as」、「roleplay」、「imagine you are」等
模型回應中的 persona 轉換偵測:從標準助理口吻變為角色口吻
虛構情境偵測:「in this fictional scenario」、「假設性地」

上下文注入

在代理式系統中,攻擊者可透過操縱工具輸出或 RAG 文件注入指令。

ContextInjectionDetector:

偵測工具回傳或檢索內容中的指令模式(「IGNORE PREVIOUS」、「SYSTEM:」、markdown 格式的指令)
比對內容與已知注入載荷特徵
檢查模型是否在非使用者輸入後突然改變行為

系統提示詞擷取

攻擊者常試圖洩漏系統提示詞以理解護欄並設計繞過。

SystemPromptExtractionDetector:

關鍵詞:「your system prompt」、「initial instructions」、「show me your prompt」
要求重複或改寫指令的模式
模型回應中出現與系統提示詞高度相似的內容

時序分析

會話時間線重建

ConversationTimelineBuilder:

依時間戳排序對話回合
計算回合間隔:< 2 秒可能指出自動化
識別「爆發」模式:短時間內大量訊息
建立視覺化時間線顯示攻擊進展

跨會話關聯

相同攻擊者可能跨多個會話、使用不同 session_id 執行攻擊。

CrossSessionCorrelator:

依 user_id / IP / user agent 分組
識別跨會話的共同特徵:類似載荷、相同目標、相似措辭
語意指紋:將對話嵌入平均,比較跨會話嵌入的相似度
時序關聯:跨會話的工作時程模式、異常安靜時段

語意分析

嵌入分析

將每個對話回合嵌入到向量空間,使鑑識分析能以幾何方式進行:

聚類:相似對話的群聚揭示常見攻擊模板
離群點偵測:不尋常對話可能是新穎攻擊或測試
檢索:對嫌疑對話,找出其他最相似的歷史對話

情感與意圖分類

情感分析:偵測攻擊性、挫折、操縱口吻
意圖分類:將對話分類為目標類別(資訊擷取、越獄嘗試、社會工程)
毒性評分:內容審核分數(使用 Perspective API、OpenAI Moderation 或自訂分類器)

鑑識報告產出

對話鑑識報告

典型報告應包含:

執行摘要:識別的攻擊類型、受影響會話數、主要發現
時間線視覺化:攻擊進展圖
攻擊模式分類:偵測到的每種模式的實例
最具代表性的對話:完整對話節錄顯示關鍵證據
關聯圖:跨會話的攻擊者關聯
威脅指標(IoC):IP、user agents、載荷簽章
建議的偵測規則:從觀察到的模式導出的偵測規則

偵測規則產出

對話鑑識應產出可部署到生產的偵測規則:

YARA 風格的字串比對規則
統計閾值(例如會話中毒性分數 > X 的訊息數 > Y)
嵌入相似度:若新對話與已知攻擊對話的平均嵌入相似度 > 閾值則標記

常見挑戰

規模:生產系統可能產生每日數百萬回合;需要有效率的取樣與初步過濾
加密日誌:若對話日誌加密,需適當存取控制與解密管線
誤報:正當使用者可能意外觸發偵測器(例如研究人員測試安全)
攻擊者學習:攻擊者可能學習你的偵測並調整;需持續更新偵測

參考資料

OWASP. (2025). OWASP Top 10 for LLM Applications. LLM01: Prompt Injection. https://owasp.org/www-project-top-10-for-large-language-model-applications/
Greshake, K., et al. (2023). Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection. arXiv:2302.12173.
Perez, F., & Ribeiro, I. (2022). Ignore Previous Prompt: Attack Techniques For Language Models. arXiv:2211.09527.
MITRE ATLAS. (2024). AI-specific attack techniques. https://atlas.mitre.org/

LLM 對話鑑識

相關文章

LLM 對話鑑識

相關文章