Loading...
標記為「preference-learning」的 2 篇文章
針對 RLHF 與 DPO 等偏好學習系統的攻擊,包括偏好投毒與獎勵駭入。
直接偏好優化(DPO)對模型安全屬性與對齊的影響分析。