# annotator

1 artikelgetagd met “annotator”

Diepgaande analyse van het RLHF-aanvalsoppervlak

Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.

RLHFreward-modelpreference-dataPPOannotatoralignment

Expert