推論最佳化風險
模型最佳化技術的安全意涵——涵蓋量化安全降級、剪枝漏洞引入、蒸餾攻擊與推測解碼風險。
推論最佳化使模型更快、更便宜且更可部署。量化降低記憶體與運算需求。剪枝移除不必要的模型參數。蒸餾將知識轉移至較小模型。推測解碼增加生成速度。每種技術都以可能影響安全屬性的方式修改模型——安全對齊、對抗性穩健性與萃取漏洞。
量化安全意涵
量化如何影響安全
量化將模型權重的數值精度從 32 位元或 16 位元浮點降至較低精度——8 位元整數(INT8)、4 位元整數(INT4)或更低。此精度降低改變模型的決策邊界,可能影響安全行為。
研究已顯示量化可削弱安全對齊。安全訓練模型透過精確平衡的權重設定維持其安全性。量化近似這些設定,而近似誤差可將決策邊界移位使安全繞過更容易。
訓練後量化(PTQ) 在訓練完成後應用量化,傾向有較大安全影響。量化感知訓練(QAT) 在訓練期間包含量化效應,通常更好保留安全。GPTQ 與 AWQ 是嘗試保留模型品質的熱門 LLM 特定量化方法,但品質保留不保證安全保留。
量化漏洞評估
要評估量化是否降級模型安全,對全精度與量化模型執行安全基準。比較越獄成功率、有害內容生成率、安全拒絕率與安全相關提示詞上的輸出品質。聚焦於邊緣案例——接近模型安全與不安全回應決策邊界的提示詞。
熱門量化格式
| 格式 | 典型精度 | 安全影響 | 效能影響 |
|---|---|---|---|
| FP16 | 16 位元浮點 | 最小 | 中等加速 |
| BF16 | 16 位元 bfloat | 最小 | 中等加速 |
| INT8 | 8 位元整數 | 低至中 | 顯著加速 |
| INT4 (GPTQ) | 4 位元整數 | 中 | 大幅加速 |
| INT4 (AWQ) | 4 位元整數 | 中 | 大幅加速 |
| GGUF Q4_K_M | 混合 4 位元 | 中 | 大幅加速,CPU 友好 |
| 2 位元 | 2 位元整數 | 高 | 最大壓縮 |
剪枝安全意涵
結構化 vs. 非結構化剪枝
結構化剪枝 移除整個神經元、注意力頭或層。非結構化剪枝 移除個別權重。兩者都可影響安全。安全相關權重可能被移除,如果剪枝標準不考量安全行為。
安全感知剪枝
標準剪枝最佳化任務效能保留。安全感知剪枝加入安全基準至剪枝標準,保留對安全重要的參數,即使它們對任務效能貢獻較少。
蒸餾風險
知識蒸餾與安全轉移
安全對齊不完美地透過蒸餾轉移。學生模型可能學習教師的任務效能而不學習其安全行為。
基於蒸餾的模型竊取
蒸餾可用於竊取模型能力。萃取的學生模型通常不繼承教師的安全訓練——它學習教師的能力而不學習其拒絕。這建立具相似能力但較弱安全對齊的模型。
推測解碼風險
草稿模型完整性:被入侵的草稿模型可提議微妙偏誤目標模型生成的符元。透過拒絕模式的資訊洩漏:被接受與被拒絕符元的模式揭露關於草稿與目標模型差異的資訊。快取共享:推測解碼在草稿與目標模型間共享 KV 快取,建立額外快取基礎資訊洩漏機會。
最佳化管線安全
最佳化鏈
生產模型經常經歷多階段最佳化。每階段獨立影響安全屬性,累積效應可能大於個別效應之和。組織應在每個最佳化階段後評估安全屬性。
比較測試框架
實作標準化比較測試框架,在相同全面測試套件上評估原始模型與每個最佳化變體。測試套件應包含:任務效能基準、安全評估、對抗性穩健性與隱私。任何安全或安全指標上的統計顯著降級應在部署最佳化模型前被調查。
推論最佳化對生產 AI 部署至關重要,但它不是安全中性的。每種最佳化技術以可能影響安全對齊、對抗性穩健性與隱私屬性的方式改變模型行為。將最佳化視為需要評估與核准才能部署的安全相關變更。