# preference-data
2 artikelengetagd met “preference-data”
Manipulatie van RLHF en alignment
Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking
Diepgaande analyse van het RLHF-aanvalsoppervlak
Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.
RLHFreward-modelpreference-dataPPOannotatoralignment