架構層級攻擊
鎖定模型架構最佳化的攻擊——涵蓋量化利用、蒸餾攻擊、KV 快取攻擊、MoE 路由操控與上下文視窗利用。
架構層級攻擊鎖定模型部署過程中應用的技術最佳化。量化、蒸餾、KV 快取管理與混合專家路由都引入可在理論模型行為與實務部署行為之間的落差中利用的漏洞。
量化利用
量化降低模型精度以改善推論效率。此精度降低改變決策邊界,可削弱安全對齊。詳見 推論最佳化風險。
蒸餾攻擊
知識蒸餾訓練較小學生模型以模仿較大教師模型。安全對齊不完美轉移——學生模型可能學到能力而不學到拒絕。蒸餾也可用於模型竊取。
KV 快取攻擊
KV 快取儲存注意力計算的鍵值對。攻擊向量:跨請求快取洩漏(殘餘資料影響後續請求)、KV 快取萃取(從 GPU 記憶體讀取快取內容以重建對話)。詳見 模型快取安全。
MoE 路由操控
混合專家模型將輸入路由至專業化專家子網路。攻擊者可打造輸入以繞過安全專業化專家——如果安全行為集中在特定專家,路由操控可避免觸發該專家。
上下文視窗攻擊
利用模型如何處理其上下文容量邊界處的輸入:超長輸入可導致截斷(安全指令被截掉)或效能退化(安全推理品質下降)。