# preference

3 artikelengetagd met “preference”

Aanvallen op preferentiedatasets

Attacking preference datasets used for DPO and RLHF training to shift model behavior toward attacker-desired response patterns.

Strategies for manipulating RLHF preference rankings to shift model behavior, including Sybil attacks on crowdsourced preferences.

Het vergiftigen van voorkeursdata gebruikt in RLHF en DPO om de alignment van het model richting de doelstellingen van de aanvaller te verschuiven.