模型快取安全

中級1 分鐘閱讀更新於 2026-03-15

AI 推論中快取的安全風險——涵蓋 KV 快取攻擊、提示詞快取利用、共享快取資訊洩漏、快取投毒與安全快取設定。

caching kv-cache prompt-caching shared-cache information-leakage performance

快取對高效 AI 推論至關重要。KV 快取在自迴歸生成期間儲存注意力狀態。提示詞快取為常見前綴儲存預運算狀態。回應快取為重複查詢儲存完整輸出。每個快取機制以儲存交換運算，但每個也建立資訊洩漏、快取投毒與跨租戶資料暴露的機會。

KV 快取基礎

KV 快取如何運作

在自迴歸生成期間，每個新符元透過注意力機制運算的鍵值對關注所有先前符元。沒有快取，每個符元都需要重新運算整個序列的注意力。KV 快取儲存這些鍵值對，使它們被運算一次並重新用於後續符元。

KV 快取包含關於對話的豐富語意資訊。鍵與值張量編碼模型對上下文中每個符元的表示——包含系統提示詞、使用者訊息、檢索上下文與產生的輸出。能讀取 KV 快取的攻擊者可重建對話的顯著部分。

KV 快取大小與記憶體壓力

對大型語言模型，KV 快取消耗顯著 GPU 記憶體。提供 4096 符元上下文的 70B 參數模型每個請求可能使用 4-8 GB KV 快取。在高吞吐量服務中，KV 快取管理經常是瓶頸，導致可能有安全意涵的記憶體管理最佳化。

KV 快取攻擊

跨請求快取洩漏

在為記憶體效率積極管理 KV 快取的服務框架中，來自一個請求的快取記憶體可能在沒有適當清除的情況下被分配給另一個請求。如果快取記憶體包含來自先前使用者對話的注意力狀態，新使用者的生成可能被殘餘狀態影響。

這不是直接資料暴露——新使用者不看到先前使用者的文字。但殘餘注意力狀態可微妙地影響模型的生成，可能使其產生反映先前對話之主題或模式的輸出。

測試跨請求快取洩漏需要傳送請求序列並分析模型輸出是否展現與來自不同使用者之先前請求的非預期相關性。

快取投毒：如果攻擊者可影響什麼被快取（透過首先傳送特定前綴），他們可能能夠快取微妙不同於合法的修改前綴。符合被快取前綴的後續請求會使用攻擊者的快取狀態。

回應快取

語意回應快取

某些應用程式為相似查詢快取完整模型回應以降低推論成本。當新查詢與先前快取的查詢足夠相似時，被快取的回應在不呼叫模型的情況下被傳回。

快取鍵操控：如果快取使用語意相似度進行鍵匹配，攻擊者可打造語意上類似目標查詢但請求不同資訊的查詢。如果快取傳回不同使用者查詢的回應，攻擊者接收該回應。

快取投毒：攻擊者可以預期其他使用者會進行的查詢回應填充快取。如果被快取回應包含誤導或惡意資訊，觸發快取命中的後續使用者接收攻擊者的內容，而非新鮮的模型回應。

過期回應風險：被快取回應不反映在快取後發生的模型更新、設定變更或上下文變更。在安全更新前被快取的回應可能包含更新後模型會拒絕產生的內容。

模型快取安全

中級1 分鐘閱讀更新於 2026-03-15

AI 推論中快取的安全風險——涵蓋 KV 快取攻擊、提示詞快取利用、共享快取資訊洩漏、快取投毒與安全快取設定。

caching kv-cache prompt-caching shared-cache information-leakage performance

KV 快取基礎

KV 快取如何運作

KV 快取大小與記憶體壓力

KV 快取攻擊

跨請求快取洩漏

測試跨請求快取洩漏需要傳送請求序列並分析模型輸出是否展現與來自不同使用者之先前請求的非預期相關性。

KV 快取萃取

研究已證明 KV 快取值可被解碼以復原原始文字的顯著部分，特別是在結合模型架構與分詞器知識時。

PagedAttention 安全

提示詞快取

提示詞快取如何運作

Anthropic 與 OpenAI 等 API 供應商提供提示詞快取作為降低成本與延遲的功能。自託管服務框架實作類似機制。

提示詞快取安全風險

回應快取

語意回應快取

某些應用程式為相似查詢快取完整模型回應以降低推論成本。當新查詢與先前快取的查詢足夠相似時，被快取的回應在不呼叫模型的情況下被傳回。

模型快取安全

KV 快取基礎

KV 快取如何運作

KV 快取大小與記憶體壓力

KV 快取攻擊

跨請求快取洩漏

KV 快取萃取

PagedAttention 安全

提示詞快取

提示詞快取如何運作

提示詞快取安全風險

回應快取

語意回應快取

安全快取設定

KV 快取隔離

提示詞快取存取控制

回應快取安全

快取監控

模型快取安全

KV 快取基礎

KV 快取如何運作

KV 快取大小與記憶體壓力

KV 快取攻擊

跨請求快取洩漏

KV 快取萃取

PagedAttention 安全

提示詞快取

提示詞快取如何運作

提示詞快取安全風險

回應快取

語意回應快取

安全快取設定

KV 快取隔離

提示詞快取存取控制

回應快取安全

快取監控

模型快取安全

相關文章

模型快取安全

相關文章