AI 監控與可觀測性
於 AI 系統監控什麼、為偵測濫用與漂移之關鍵指標、警報策略,與 LLM 應用之可觀測性架構。
為何 AI 監控不同
傳統應用監控聚焦運行時間、延遲與錯誤率。AI 監控必須更進一步——追蹤行為之機率系統,其輸出按設計不可預測。傳統應用或運作或不運作。AI 應用可「運作」(返回 200 狀態碼配有效回應)同時產出有害、錯誤或被操弄之內容。
監控什麼
AI 監控跨三個領域:系統指標、行為指標與安全指標。
系統指標
這些為為 AI 工作負載適配之傳統可觀測性指標:
| 指標 | 量測什麼 | 為何重要 |
|---|---|---|
| 延遲(TTFT) | 至第一 token 之時間 | 異常高延遲可能指示造成過度計算之對抗輸入 |
| 延遲(總) | 總回應生成時間 | 突然增加可能訊號觸發複雜工具鏈之提示注入 |
| Token 吞吐 | 每秒處理之 token | 下降指示資源爭用或攻擊 |
| 錯誤率 | 失敗請求之百分比 | 飆升可能指示自動化攻擊嘗試 |
| Token 使用 | 每請求之輸入/輸出 token | 異常高使用可能指示提取嘗試或脈絡填塞 |
| 成本 | 每請求/使用者/期間之美元支出 | 來自高 token 請求或過度工具使用之成本飆升 |
| GPU 利用率 | 計算資源消耗 | 持續高利用率可能指示阻斷服務 |
行為指標
這些指標追蹤模型輸出之品質與適切性:
| 指標 | 量測什麼 | 為何重要 |
|---|---|---|
| 拒絕率 | 模型拒絕回答之請求百分比 | 突然下降可能指示成功越獄 |
| 主題分布 | 隨時間之對話主題分布 | 轉移可能指示系統化利用 |
| 輸出相似度 | 輸出與已知有害範本間之 cosine 相似度 | 偵測匹配有害內容模式之輸出 |
| 工具呼叫頻率 | 模型多常呼叫工具 | 飆升可能指示經提示注入之工具濫用 |
| 工具呼叫模式 | 呼叫哪些工具及以何引數 | 非預期之工具呼叫可能指示對抗操弄 |
| 情感漂移 | 隨時間之輸出情感變化 | 漸進轉移可能指示細微操弄 |
| 幻覺率 | 輸出中未接地之聲明百分比 | 增加可能指示投毒之檢索來源 |
安全指標
這些指標特別針對對抗活動:
| 指標 | 量測什麼 | 為何重要 |
|---|---|---|
| 注入嘗試率 | 由提示注入偵測器標記之請求 | 追蹤攻擊量與趨勢 |
| 護欄觸發率 | 每個護欄阻擋請求之頻率 | 變化指示新攻擊模式或護欄退化 |
| 系統提示洩漏 | 含系統提示片段之輸出 | 指示成功提取嘗試 |
| PII 暴露率 | 含偵測到 PII 之輸出 | 追蹤資料洩漏 |
| API 金鑰輪換頻率 | 受損金鑰多常被偵測 | 指示金鑰管理健康 |
| 使用者異常分數 | 每使用者之行為偏離基線 | 辨識被用於對抗測試之帳戶 |
警報策略
有效警報於偵測敏感度與警報疲勞間平衡。對 AI 系統,此平衡特別具挑戰性,因系統之輸出本質可變。
警報層級
關鍵(立即回應)
指示主動利用或資料違規之條件。範例:系統提示完全被提取、PII 出現於輸出、對未授權服務之工具呼叫、超越門檻之成本飆升。回應:呼叫 on-call、自動緩解(速率限制或阻擋使用者)。
高(1 小時內)
暗示持續攻擊或顯著漂移之條件。範例:護欄觸發率之持續增加、新越獄模式重複出現、異常工具呼叫模式。回應:警報安全團隊、於小時內調查。
中(1 個工作日內)
指示需調查之潛在問題之條件。範例:主題分布之漸進變化、遞增之拒絕率(可能過度過濾)、具異常高使用之新使用者帳戶。回應:排入調查佇列。
低(每週審查)
為持續安全態勢評估之趨勢與模式。範例:輸出品質指標之緩慢漂移、使用者人口行為之變化、被阻擋請求中之新興模式。回應:納入每週安全審查。
動態基線
靜態警報門檻對 AI 系統失敗,因正常行為隨使用模式、模型更新與季節性變化而變化。使用動態基線:
- 滾動視窗基線:將當前指標與過去 7-30 日同一指標比較
- 以百分位為本之門檻:於指標超越其歷史分布之第 99 百分位時警報
- 變化率警報:於指標於時間視窗內變化超過 N% 時警報
- 世代比較:將使用者之行為與其世代而非全域門檻比較
可觀測性架構
完整 AI 可觀測性堆疊具四層:
層 1:蒐集
於生成點捕捉所有相關資料:
- 請求/回應記錄:每個提示與 completion 配 metadata(使用者 ID、時戳、模型、參數)
- 護欄決策:每個護欄評估配其分數與決策
- 工具呼叫軌跡:每個工具呼叫配引數、結果與時序
- 基礎設施指標:GPU 利用率、記憶體、延遲、錯誤率
層 2:儲存
於為所需存取模式最佳化之系統中儲存蒐集之資料:
| 資料類型 | 儲存 | 保留 | 存取模式 |
|---|---|---|---|
| 指標 | 時序 DB(Prometheus、InfluxDB) | 90 日於完整解析度 | 儀表板查詢、警報 |
| 記錄 | 記錄聚合器(Elasticsearch、Loki) | 30-90 日 | 全文搜尋、調查 |
| 軌跡 | 軌跡儲存(Jaeger、Tempo) | 14-30 日 | 請求流分析 |
| 對話 | 具 metadata 索引之物件儲存(S3) | 依政策(30 日至 7 年) | 事件調查、合規 |
層 3:分析
處理儲存之資料以生成洞察並偵測異常:
- 即時流處理:Kafka/Flink 為立即模式偵測
- 批次分析:累積資料之週期性分析為趨勢偵測
- 以 ML 為本之異常偵測:於正常行為上訓練之模型以偵測偏離
- 以 embedding 為本之相似度:將輸出與已知有害內容資料庫比較
層 4:視覺化與回應
呈現分析結果並啟動動作:
- 儀表板:對系統健康與安全態勢之即時能見度
- 警報管理:安全警報之路由、升級與追蹤
- 事件回應工具:對偵測之威脅阻擋使用者、撤銷金鑰與調整護欄之能力
- 報告:合規報告、安全態勢報告與趨勢分析
AI 特定可觀測性工具
數個工具特別為 AI 可觀測性湧現:
| 工具 | 聚焦 | 關鍵特性 |
|---|---|---|
| LangSmith | LangChain 應用 | 軌跡視覺化、提示版本控制、評估 |
| Langfuse | 開源 LLM 可觀測性 | 追蹤、評分、提示管理 |
| Weights & Biases(W&B) | ML 實驗追蹤 | 訓練監控、模型評估 |
| Arize Phoenix | LLM 與 ML 可觀測性 | Embedding 漂移偵測、LLM 追蹤 |
| Helicone | LLM 使用分析 | 成本追蹤、快取、速率限制 |
| OpenLLMetry | 為 LLM 之 OpenTelemetry | 為 LLM 呼叫之標準儀表化 |
監控作為紅隊目標
自紅隊觀點,監控既為約束亦為目標:
逃避監控
- 低而慢:將攻擊散布於時間以避免以速率為本之偵測
- 模仿正常行為:將你之請求模式匹配合法使用者
- 多個帳戶:將攻擊嘗試分布於帳戶以避免每使用者異常偵測
- 漸進升級:避免觸發變化率警報之突然行為變化
攻擊監控
- 警報洪流:產生高量低嚴重性警報以造就疲勞並掩蓋真實攻擊
- 記錄注入:將誤導內容注入記錄以使事件調查複雜化
- 監控盲點:辨識未捕捉之資料(例如未記錄之串流回應、未記錄之工具呼叫引數)
- 保留利用:執行攻擊,然後等待記錄保留到期,再於發動真實攻擊
相關主題
參考資料
- "Monitoring Machine Learning Models in Production" - Google(2024)- ML 監控之完整指南,涵蓋資料漂移、模型效能與操作指標
- "LLM Observability: A Practical Guide" - Arize AI(2025)- 實作 LLM 特定可觀測性之實務模式
- "OpenTelemetry for AI: Instrumenting LLM Applications" - OpenTelemetry Community(2025)- AI 應用可觀測性之標準儀表化途徑
- "Detecting Adversarial Attacks on LLM Applications" - Microsoft Research(2024)- 對針對 LLM 應用之對抗活動之以監控為本之偵測研究
為何監控被視為 AI 系統之『最後防線』?