# fine-tuning-security
標記為「fine-tuning-security」的 6 篇文章
模型合併風險
模型與配接器合併工作流中的安全風險——來自不受信任來源的配接器合併如何引入漏洞、利用合併演算法屬性,並透過 TIES、DARE、SLERP 與線性插值造成安全屬性喪失。
model-mergingtiesdareslerpadapter-mergesafety-lossfine-tuning-security
DPO 特有攻擊
直接偏好最佳化 (DPO) 獨有漏洞——參考模型操控、KL 散度利用,以及 DPO 數學框架如何造就標準 RLHF 中不存在的攻擊面。
dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security
RLHF 與 DPO 操縱
針對人類回饋強化學習與直接偏好優化攻擊的概覽——獎勵駭客、偏好資料投毒與對齊操縱如何入侵訓練管線。
rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security
獎勵模型攻擊
模型如何透過獎勵駭入學會鑽獎勵訊號漏洞——利用獎勵模型瑕疵、RLHF 中的古德哈特定律、對抗性獎勵最佳化,以及語言模型訓練中獎勵駭入的實務範例。
reward-hackingreward-modelgoodharts-lawrlhfoptimizationgamingfine-tuning-security
Fine-Tuning Safety Evaluation Framework
A comprehensive framework for evaluating the safety of fine-tuned models -- combining pre-deployment testing, safety regression benchmarks, and continuous monitoring to detect when fine-tuning has compromised model safety.
safety-evaluationregression-testingbenchmarkingmonitoringfine-tuning-securitysafety-framework
安全回歸測試
量測微調前後安全變化的量化方法——基準選擇、自動化安全測試套件、安全回歸的統計方法論,以及建立完整前後評估管線。
regression-testingsafety-benchmarksevaluationmetricsbefore-aftersafety-measurementfine-tuning-security