Loading...
標記為「preference」的 3 篇文章
透過操縱偏好資料集對 RLHF 與偏好學習發動攻擊。
操控 RLHF 偏好排名以改變模型行為的策略,包括對群眾外包偏好的 Sybil 攻擊。
投毒 RLHF 與 DPO 使用的偏好資料,將模型對齊推向攻擊者目標。