# safety-regression
標記為「safety-regression」的 2 篇文章
微調如何劣化安全
微調侵蝕模型安全的機制——安全訓練的災難性遺忘、資料集組成效應、「少數樣本」問題,以及衡量安全回歸的量化方法。
safety-degradationcatastrophic-forgettingfine-tuningalignmentsafety-regressionrlhf
Quantization-Induced 安全 Regression 測試
測試how model quantization (INT8,INT4,GPTQ) degrades safety alignment與introduces exploitable gaps.
labsquantizationsafety-regressionadvanced