Loading...
標記為「preference-pairs」的 1 篇文章
Direct Preference Optimization 漏洞、DPO 與 RLHF 於攻擊面之差異、偏好配對投毒,以及排名操弄技術。