# preference-data

2 artikelengetagd met “preference-data”

Manipulatie van RLHF en alignment

Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

Expert

Diepgaande analyse van het RLHF-aanvalsoppervlak

Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.

RLHFreward-modelpreference-dataPPOannotatoralignment

Expert