模型服務安全
模型服務基礎設施的安全強化——涵蓋 vLLM、TGI、Triton 推論伺服器設定、API 安全、資源隔離與部署最佳實務。
模型服務基礎設施——vLLM、Text Generation Inference(TGI)、Triton Inference Server 與類似框架——是 AI 系統與使用者之間的閘道。此基礎設施的安全設定直接影響模型端點可被如何存取、濫用或入侵。
模型服務架構
典型模型服務堆疊包含:推論引擎(vLLM、TGI、Triton)、API 層(REST/gRPC 端點)、負載平衡器、認證/授權層,以及監控。每一層呈現不同的攻擊面。
框架特定安全
vLLM 安全
vLLM 使用 PagedAttention 進行高效 KV 快取管理。安全顧慮:預設無認證(API 開放存取)、KV 快取在多租戶環境可能洩漏跨請求資訊(詳見 模型快取安全)、模型下載未驗證完整性。
強化:啟用 API 金鑰認證、限制網路存取至已知客戶端、啟用請求日誌、設定資源限制以防止 DoS。
TGI 安全
Hugging Face TGI 提供高效能推論。安全顧慮:預設監聽所有介面、健康檢查端點可能暴露模型資訊、缺乏內建速率限制。
強化:繫結至 localhost 並透過反向代理暴露、實作外部速率限制、限制模型載入至核准模型。
Triton Inference Server
NVIDIA Triton 支援多框架推論。安全顧慮:模型儲存庫存取控制、gRPC 端點暴露、共享記憶體可能跨模型洩漏。
強化:加密模型儲存庫存取、啟用 TLS、實作請求認證、隔離模型實例。
常見服務漏洞
未認證端點
最常見發現:模型服務端點無認證從網際網路可存取。攻擊者可:查詢模型以萃取資訊、發送大量請求造成 DoS、嘗試提示詞注入。
資源耗盡
攻擊者傳送消耗不成比例 GPU 記憶體或運算的請求:極長輸入、請求極長輸出、觸發昂貴運算路徑的輸入。
模型交換
如果模型儲存庫寫入未受控,攻擊者可用具後門的模型替換合法模型。模型在重新載入時生效。
推論日誌暴露
推論日誌可能包含完整提示詞與回應,包含敏感使用者資料。日誌未受適當存取控制保護時構成資料暴露。
安全評估方法論
- 端點發現:掃描已知推論伺服器連接埠(vLLM: 8000、TGI: 80/8080、Triton: 8000/8001/8002)
- 認證測試:嘗試無認證存取端點
- 資源限制測試:傳送設計為消耗不成比例資源的請求
- 模型列舉:嘗試列出可用模型或取得模型中繼資料
- 日誌存取測試:檢查推論日誌是否可被未授權使用者存取
- 網路隔離驗證:確認推論端點不從公開網際網路可存取
模型服務安全是 AI 基礎設施安全的基礎。不安全設定的推論端點是 AI 部署中最常見且最具影響的漏洞之一。