# preference-poisoning

標記為「preference-poisoning」的 2 篇文章

RLHF 與 DPO 操縱

針對人類回饋強化學習與直接偏好優化攻擊的概覽——獎勵駭客、偏好資料投毒與對齊操縱如何入侵訓練管線。

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

Preference Data 投毒

How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.

preference-poisoningrlhfdpodata-poisoninghuman-feedbacklabeler-attackalignment

進階