# RLHF

8 artikelengetagd met “RLHF”

Aanvallen op preferentiedatasets

Attacking preference datasets used for DPO and RLHF training to shift model behavior toward attacker-desired response patterns.

data-trainingpreferenceDPORLHF

Gevorderd

Vergiftiging van reinforcement-feedback

Compromising reinforcement learning from human feedback by poisoning preference data, manipulating reward models, or exploiting annotator disagreement.

data-trainingRLHFfeedbackmanipulation

Gevorderd

Manipulatie van RLHF-preferenties

Strategies for manipulating RLHF preference rankings to shift model behavior, including Sybil attacks on crowdsourced preferences.

fine-tuningRLHFpreferencemanipulation

Gevorderd

Methoden voor veiligheidstraining

Overzicht van methoden voor veiligheidstraining, waaronder RLHF, Constitutional AI en DPO, en hun beperkingen vanuit een red team-perspectief.

foundationssafetyRLHFconstitutional-AI

Beginner

Interne werking van alignment en bypass-primitieven

RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.

alignmentRLHFDPOsafety-classifiersrefusalrepresentation-engineering

Expert

Aanvalsoppervlak van fine-tuning

Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.

fine-tuningattack-surfaceSFTRLHFalignmentDPOsafety-training

Gevorderd

Reward Hacking & Gaming

Wanneer modellen reward-signalen misbruiken in plaats van de intentie te volgen, waaronder specification gaming, de wet van Goodhart in RLHF, productievoorbeelden en implicaties voor red teaming.

reward-hackingspecification-gamingGoodharts-lawRLHFreward-modeloptimization

Expert

Diepgaande analyse van het RLHF-aanvalsoppervlak

Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.

RLHFreward-modelpreference-dataPPOannotatoralignment

Expert