# inference
標記為「inference」的 22 篇文章
Hugging Face Inference Endpoints 安全
Hugging Face Inference Endpoints 的安全分析,包括模型隔離與 API 安全。
屬性推論攻擊
透過分析模型行為與輸出來推論訓練資料集的全域屬性。
隱私保護推論模式
實作隱私保護的推論模式,以保護 LLM 應用處理的敏感資料。
推論:取樣、Temperature 與生成
LLM 如何在推論期生成文字——greedy decoding、top-k、top-p、temperature——以及這些參數如何影響攻擊成功率。
推測式解碼的安全性
推測式解碼最佳化的安全影響,包括草稿模型攻擊與驗證漏洞。
推論端點強化
AI 推論端點的安全強化,包含輸入驗證、輸出過濾與存取控制。
Triton Inference Server 安全
NVIDIA Triton Inference Server 的安全強化,包含模型儲存庫、網路與 API 安全。
vLLM 安全組態
vLLM 推論伺服器的安全組態,包含認證、網路、資源限制與輸出過濾。
進階盲注技術
用於生產 AI 系統中盲注提示詞的基於時序的推斷、差分回應分析與二元搜尋萃取方法。
KV Cache 操控 Attacks
Manipulate key-value caches in inference servers to inject or alter cached context across requests.
推論成本攻擊
透過對抗性輸入構造與 API 濫用,利用推論成本動態造成財務損害的攻擊。
推論最佳化風險
模型最佳化技術的安全意涵——涵蓋量化安全降級、剪枝漏洞引入、蒸餾攻擊與推測解碼風險。
模型服務安全
模型服務基礎設施的安全強化——涵蓋 vLLM、TGI、Triton 推論伺服器設定、API 安全、資源隔離與部署最佳實務。
推論最佳化攻擊
推測解碼攻擊、批次處理漏洞、持續批次利用,以及速度最佳化如何於 LLM 推論中造就安全缺口。
KV 快取投毒與利用
KV 快取於 transformer 推論中如何運作、共享部署中的跨請求快取投毒、前綴快取攻擊,以及跨租戶資料洩漏。
GPU Side Channel Basics
GPU-based side channel attacks on ML inference, exploiting timing, power consumption, and memory access patterns to extract information about models and data.
Inference Endpoint 利用ation
利用ing inference API endpoints for unauthorized access, data exfiltration, and service abuse through authentication flaws, input validation gaps, and misconfigured permissions.
測試 Groq 推論平台
Groq 高速推論平台及其安全特性的紅隊測試指南。
Together AI 安全 Testing
End-to-end walkthrough for security testing Together AI deployments: API enumeration, inference endpoint exploitation, fine-tuning security review, function calling assessment, and rate limit analysis.
測試 Fireworks AI 部署
透過 Fireworks AI 部署的模型(含函式呼叫與微調模型)的紅隊測試指南。
測試 Together AI 代管模型
Together AI 推論平台代管模型的紅隊測試指南。
測試 vLLM 推論部署
透過 vLLM 提供服務的模型(含批次、KV 快取與推測解碼)的紅隊測試指南。