# reward-model
11 artikelengetagd met “reward-model”
Manipulatie van RLHF en alignment
Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
Gaming van reward-modellen
Techniques for gaming reward models to produce high-reward outputs that circumvent the intended safety objectives of the reward signal.
Manipulatie van RLHF en DPO
Overview of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.
Aanvallen op reward-modellen
How models learn to game reward signals through reward hacking -- exploiting reward model flaws, Goodhart's Law in RLHF, adversarial reward optimization, and practical examples of reward hacking in language model training.
Aanvallen op verifiers & beloningsmodellen
Het aanvallen van procesbeloningsmodellen, uitkomstbeloningsmodellen en verificatiesystemen die in redeneermodellen worden gebruikt: reward hacking, verifier-generator-kloven, en het manipuleren van verificatiestappen.
Geavanceerde exploitatie van reward-modellen
Systematische benaderingen om reward-modellen te misleiden via overoptimalisatie, specification gaming en de wet van Goodhart.
Gaming van reward-modellen (geavanceerd lab)
Craft inputs that score highly on reward models while containing adversarial content.
Adversarial misbruik van reward models
Craft inputs that exploit reward model weaknesses to achieve high safety scores while containing harmful content.
Reward Hacking & Gaming
Wanneer modellen reward-signalen misbruiken in plaats van de intentie te volgen, waaronder specification gaming, de wet van Goodhart in RLHF, productievoorbeelden en implicaties voor red teaming.
Diepgaande analyse van het RLHF-aanvalsoppervlak
Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.
Beveiliging van RLHF: Reward Hacking en aanvallen op het reward-model
Uitgebreide analyse van beveiligingskwetsbaarheden in RLHF-pipelines, waaronder reward hacking, vergiftiging van het reward-model en aanvallen via preferentiemanipulatie.