AI 的 GPU 安全

Advanced1 min readUpdated 2026-03-15

AI 工作負載中的 GPU 安全風險——涵蓋記憶體隔離失敗、側通道攻擊、多租戶 GPU 風險、GPU 韌體漏洞與安全 GPU 設定。

GPU 是 AI 工作負載的運算基礎。它們處理模型訓練、推論與嵌入生成——所有 AI 安全的核心操作。但 GPU 不是為安全設計的——它們為吞吐量最佳化。此設計選擇在 AI 脈絡中建立安全意涵。

GPU 記憶體安全

不同於 CPU 具有硬體強制記憶體隔離（虛擬記憶體、MMU、IOMMU），GPU 記憶體隔離較弱。在多租戶環境中，一個工作負載的 GPU 記憶體可能對另一工作負載可存取。

未清除記憶體：GPU 記憶體在釋放後可能不被清除。後續分配同一記憶體的工作負載可能讀取先前工作負載的殘餘資料——包含模型權重、KV 快取、梯度或訓練資料。

CUDA 統一記憶體風險：NVIDIA 的統一記憶體在 CPU 與 GPU 間自動遷移頁。此遷移建立額外記憶體暴露面。

在共享 GPU 環境中（雲端 GPU 實例、Kubernetes GPU 排程），連續工作負載共享 GPU 硬體。如果記憶體清除不完整，攻擊者可排程工作負載在目標工作負載之後取得同一 GPU，並掃描殘餘記憶體以尋找敏感資料。

GPU 操作的執行時間可揭露關於處理資料的資訊。不同模型架構、不同輸入長度與不同符元產生不同時序特徵。觀察推論時序的攻擊者可推論：正使用什麼模型、輸入的大致大小，以及某些案例中輸出的特徵。

GPU 功率消耗與運算複雜度相關。功率分析可揭露模型架構細節、訓練進度，以及某些案例中訓練資料特徵。

GPU 發射的電磁輻射可被遠端測量。研究已展示從 GPU 電磁發射萃取處理資訊的可行性。

NVIDIA MIG 將單一 GPU 分割為多個隔離實例。雖然 MIG 提供比共享 GPU 更好的隔離，它不是完美安全邊界：記憶體隔離在硬體支援下有效，但某些共享資源（L2 快取、記憶體控制器）仍跨實例共享。

vGPU 技術虛擬化 GPU 存取供多租戶使用。虛擬化增加隔離層但引入 hypervisor 作為潛在攻擊面——hypervisor 漏洞可能允許 GPU 記憶體存取跨租戶邊界。

GPU 韌體控制硬體層級操作。被入侵的韌體可：繞過記憶體隔離控制、攔截通過 GPU 的資料、在難以偵測或修補的層級持續存在。

NVIDIA 定期為其 GPU 發布安全更新（CVE）。組織應將 GPU 韌體更新視為安全關鍵修補與 OS 或軟體修補同等緊迫。

記憶體清除：在工作負載之間強制 GPU 記憶體清除。NVIDIA 驅動程式支援透過 nvidia-smi 設定的記憶體清除。

MIG 啟用：在支援的 GPU 上（A100、H100）為多租戶部署啟用 MIG。

存取控制：限制 GPU 裝置存取至授權容器/程序。使用 cgroups 與裝置外掛限制 Kubernetes 中的 GPU 存取。

韌體管理：維持 GPU 韌體最新。監控 NVIDIA 安全公告。