# preference
3 artikelengetagd met “preference”
Aanvallen op preferentiedatasets
Attacking preference datasets used for DPO and RLHF training to shift model behavior toward attacker-desired response patterns.
data-trainingpreferenceDPORLHF
Manipulatie van RLHF-preferenties
Strategies for manipulating RLHF preference rankings to shift model behavior, including Sybil attacks on crowdsourced preferences.
fine-tuningRLHFpreferencemanipulation
Vergiftiging van voorkeursdata (Training Pipeline)
Het vergiftigen van voorkeursdata gebruikt in RLHF en DPO om de alignment van het model richting de doelstellingen van de aanvaller te verschuiven.
preferencepipelinedatapoisoningtraining