# safety-degradation

標記為「safety-degradation」的 5 篇文章

微調安全評量

以 15 道題目測試你對微調安全風險的知識，包括 LoRA 攻擊、RLHF 操縱、安全退化與災難性遺忘。

微調侵蝕模型安全的機制——安全訓練的災難性遺忘、資料集組成效應、「少數樣本」問題，以及衡量安全回歸的量化方法。

以 API 為基礎的微調服務如何以極少的資料與成本被利用以移除安全對齊，包括 0.20 美元的 GPT-3.5 越獄、NDSS 2025 失準研究結果，以及 BOOSTER 防禦機制。

模型最佳化技術的安全意涵——涵蓋量化安全降級、剪枝漏洞引入、蒸餾攻擊與推測解碼風險。

量化（GPTQ、AWQ、GGUF）如何影響模型安全、精度損失造成的安全退化、量化感知對抗範例，以及壓縮攻擊面。