# reward-model

11 artikelengetagd met “reward-model”

Manipulatie van RLHF en alignment

Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

Expert

Gaming van reward-modellen

Techniques for gaming reward models to produce high-reward outputs that circumvent the intended safety objectives of the reward signal.

fine-tuningreward-modelgamingoptimization

Gevorderd

Manipulatie van RLHF en DPO

Overview of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

Gevorderd

Aanvallen op reward-modellen

How models learn to game reward signals through reward hacking -- exploiting reward model flaws, Goodhart's Law in RLHF, adversarial reward optimization, and practical examples of reward hacking in language model training.

reward-hackingreward-modelgoodharts-lawrlhfoptimizationgamingfine-tuning-security

Gevorderd

Aanvallen op verifiers & beloningsmodellen

Het aanvallen van procesbeloningsmodellen, uitkomstbeloningsmodellen en verificatiesystemen die in redeneermodellen worden gebruikt: reward hacking, verifier-generator-kloven, en het manipuleren van verificatiestappen.

verifierreward-modelattacksrlhf

Expert

Geavanceerde exploitatie van reward-modellen

Systematische benaderingen om reward-modellen te misleiden via overoptimalisatie, specification gaming en de wet van Goodhart.

frontierreward-modeloptimization

Gevorderd

Gaming van reward-modellen (geavanceerd lab)

Craft inputs that score highly on reward models while containing adversarial content.

labsreward-modelgamingadvanced

Gevorderd

Adversarial misbruik van reward models

Craft inputs that exploit reward model weaknesses to achieve high safety scores while containing harmful content.

labsreward-modeladversarialadvanced

Gevorderd

Reward Hacking & Gaming

Wanneer modellen reward-signalen misbruiken in plaats van de intentie te volgen, waaronder specification gaming, de wet van Goodhart in RLHF, productievoorbeelden en implicaties voor red teaming.

reward-hackingspecification-gamingGoodharts-lawRLHFreward-modeloptimization

Expert

Diepgaande analyse van het RLHF-aanvalsoppervlak

Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.

RLHFreward-modelpreference-dataPPOannotatoralignment

Expert

Beveiliging van RLHF: Reward Hacking en aanvallen op het reward-model

Uitgebreide analyse van beveiligingskwetsbaarheden in RLHF-pipelines, waaronder reward hacking, vergiftiging van het reward-model en aanvallen via preferentiemanipulatie.

training-pipelinerlhfreward-hackingreward-modelsecurity

Gevorderd