# fine-tuning-security

標記為「fine-tuning-security」的 6 篇文章

模型合併風險

模型與配接器合併工作流中的安全風險——來自不受信任來源的配接器合併如何引入漏洞、利用合併演算法屬性,並透過 TIES、DARE、SLERP 與線性插值造成安全屬性喪失。

model-mergingtiesdareslerpadapter-mergesafety-lossfine-tuning-security

進階

DPO 特有攻擊

直接偏好最佳化 (DPO) 獨有漏洞——參考模型操控、KL 散度利用,以及 DPO 數學框架如何造就標準 RLHF 中不存在的攻擊面。

dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security

專家

RLHF 與 DPO 操縱

針對人類回饋強化學習與直接偏好優化攻擊的概覽——獎勵駭客、偏好資料投毒與對齊操縱如何入侵訓練管線。

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

進階

獎勵模型攻擊

模型如何透過獎勵駭入學會鑽獎勵訊號漏洞——利用獎勵模型瑕疵、RLHF 中的古德哈特定律、對抗性獎勵最佳化,以及語言模型訓練中獎勵駭入的實務範例。

reward-hackingreward-modelgoodharts-lawrlhfoptimizationgamingfine-tuning-security

進階

Fine-Tuning Safety Evaluation Framework

A comprehensive framework for evaluating the safety of fine-tuned models -- combining pre-deployment testing, safety regression benchmarks, and continuous monitoring to detect when fine-tuning has compromised model safety.

safety-evaluationregression-testingbenchmarkingmonitoringfine-tuning-securitysafety-framework

中級

安全回歸測試

量測微調前後安全變化的量化方法——基準選擇、自動化安全測試套件、安全回歸的統計方法論,以及建立完整前後評估管線。

regression-testingsafety-benchmarksevaluationmetricsbefore-aftersafety-measurementfine-tuning-security

中級