AI 的 GPU 安全
AI 工作負載中的 GPU 安全風險——涵蓋記憶體隔離失敗、側通道攻擊、多租戶 GPU 風險、GPU 韌體漏洞與安全 GPU 設定。
GPU 是 AI 工作負載的運算基礎。它們處理模型訓練、推論與嵌入生成——所有 AI 安全的核心操作。但 GPU 不是為安全設計的——它們為吞吐量最佳化。此設計選擇在 AI 脈絡中建立安全意涵。
GPU 記憶體安全
GPU 記憶體不隔離
不同於 CPU 具有硬體強制記憶體隔離(虛擬記憶體、MMU、IOMMU),GPU 記憶體隔離較弱。在多租戶環境中,一個工作負載的 GPU 記憶體可能對另一工作負載可存取。
未清除記憶體:GPU 記憶體在釋放後可能不被清除。後續分配同一記憶體的工作負載可能讀取先前工作負載的殘餘資料——包含模型權重、KV 快取、梯度或訓練資料。
CUDA 統一記憶體風險:NVIDIA 的統一記憶體在 CPU 與 GPU 間自動遷移頁。此遷移建立額外記憶體暴露面。
跨工作負載資料洩漏
在共享 GPU 環境中(雲端 GPU 實例、Kubernetes GPU 排程),連續工作負載共享 GPU 硬體。如果記憶體清除不完整,攻擊者可排程工作負載在目標工作負載之後取得同一 GPU,並掃描殘餘記憶體以尋找敏感資料。
GPU 側通道攻擊
時序側通道
GPU 操作的執行時間可揭露關於處理資料的資訊。不同模型架構、不同輸入長度與不同符元產生不同時序特徵。觀察推論時序的攻擊者可推論:正使用什麼模型、輸入的大致大小,以及某些案例中輸出的特徵。
功率側通道
GPU 功率消耗與運算複雜度相關。功率分析可揭露模型架構細節、訓練進度,以及某些案例中訓練資料特徵。
電磁側通道
GPU 發射的電磁輻射可被遠端測量。研究已展示從 GPU 電磁發射萃取處理資訊的可行性。
多租戶 GPU 風險
MIG(Multi-Instance GPU)安全
NVIDIA MIG 將單一 GPU 分割為多個隔離實例。雖然 MIG 提供比共享 GPU 更好的隔離,它不是完美安全邊界:記憶體隔離在硬體支援下有效,但某些共享資源(L2 快取、記憶體控制器)仍跨實例共享。
GPU 虛擬化
vGPU 技術虛擬化 GPU 存取供多租戶使用。虛擬化增加隔離層但引入 hypervisor 作為潛在攻擊面——hypervisor 漏洞可能允許 GPU 記憶體存取跨租戶邊界。
GPU 韌體安全
GPU 韌體控制硬體層級操作。被入侵的韌體可:繞過記憶體隔離控制、攔截通過 GPU 的資料、在難以偵測或修補的層級持續存在。
NVIDIA 定期為其 GPU 發布安全更新(CVE)。組織應將 GPU 韌體更新視為安全關鍵修補與 OS 或軟體修補同等緊迫。
安全 GPU 設定
記憶體清除:在工作負載之間強制 GPU 記憶體清除。NVIDIA 驅動程式支援透過 nvidia-smi 設定的記憶體清除。
MIG 啟用:在支援的 GPU 上(A100、H100)為多租戶部署啟用 MIG。
存取控制:限制 GPU 裝置存取至授權容器/程序。使用 cgroups 與裝置外掛限制 Kubernetes 中的 GPU 存取。
韌體管理:維持 GPU 韌體最新。監控 NVIDIA 安全公告。
網路隔離:隔離 GPU 通訊通道(NVLink、InfiniBand)以防止跨節點窺探。
GPU 安全是 AI 基礎設施安全的經常被忽略面。隨著 AI 工作負載在共享基礎設施上增加,GPU 層級安全變得越來越關鍵。