Diepgaande analyse van het RLHF-aanvalsoppervlak
Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.
RLHFreward-modelpreference-dataPPOannotatoralignment