# direct-preference-optimization
標記為「direct-preference-optimization」的 2 篇文章
DPO 特有攻擊
直接偏好最佳化 (DPO) 獨有漏洞——參考模型操控、KL 散度利用,以及 DPO 數學框架如何造就標準 RLHF 中不存在的攻擊面。
dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security
DPO 與直接對齊攻擊
Direct Preference Optimization 漏洞、DPO 與 RLHF 於攻擊面之差異、偏好配對投毒,以及排名操弄技術。
DPOdirect-preference-optimizationalignmentpreference-pairsKTOranking