# safety-degradation
標記為「safety-degradation」的 5 篇文章
微調安全評量
以 15 道題目測試你對微調安全風險的知識,包括 LoRA 攻擊、RLHF 操縱、安全退化與災難性遺忘。
assessmentfine-tuninglorarlhfsafety-degradationtraining-security
微調如何劣化安全
微調侵蝕模型安全的機制——安全訓練的災難性遺忘、資料集組成效應、「少數樣本」問題,以及衡量安全回歸的量化方法。
safety-degradationcatastrophic-forgettingfine-tuningalignmentsafety-regressionrlhf
微調即服務攻擊面
以 API 為基礎的微調服務如何以極少的資料與成本被利用以移除安全對齊,包括 0.20 美元的 GPT-3.5 越獄、NDSS 2025 失準研究結果,以及 BOOSTER 防禦機制。
ftaasfine-tuningapi-fine-tuningsafety-degradationjailbreakalignment
推論最佳化風險
模型最佳化技術的安全意涵——涵蓋量化安全降級、剪枝漏洞引入、蒸餾攻擊與推測解碼風險。
quantizationpruningdistillationoptimizationinferencesafety-degradation
量化與壓縮攻擊
量化(GPTQ、AWQ、GGUF)如何影響模型安全、精度損失造成的安全退化、量化感知對抗範例,以及壓縮攻擊面。
quantizationgptqawqggufcompressionsafety-degradationprecision