Loading...
標記為「alignment-attack」的 1 篇文章
直接偏好最佳化 (DPO) 獨有漏洞——參考模型操控、KL 散度利用,以及 DPO 數學框架如何造就標準 RLHF 中不存在的攻擊面。