# reward-hacking

11 artikelengetagd met “reward-hacking”

Manipulatie van RLHF en alignment

Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

Expert

Beveiliging van fine-tuning

Comprehensive overview of how fine-tuning can compromise model safety -- attack taxonomy covering dataset poisoning, safety degradation, backdoor insertion, and reward hacking in the era of widely available fine-tuning APIs.

fine-tuningsafetydataset-poisoningbackdoorreward-hackingrlhfloramodel-security

Gemiddeld

Manipulatie van RLHF en DPO

Overview of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

Gevorderd

Aanvallen op reward-modellen

How models learn to game reward signals through reward hacking -- exploiting reward model flaws, Goodhart's Law in RLHF, adversarial reward optimization, and practical examples of reward hacking in language model training.

reward-hackingreward-modelgoodharts-lawrlhfoptimizationgamingfine-tuning-security

Gevorderd

Reward Hacking en Goodharting in LLM's

Onderzoek naar exploitatie van reward-modellen, de wet van Goodhart in RLHF, en reward hacking-aanvalstechnieken.

frontier-researchreward-hackinggoodhartrlhf

Expert

Lab: geavanceerde reward hacking-technieken

Develop reward hacking exploits that manipulate RLHF reward models through adversarial optimization.

labsreward-hackingadvanced-techniquesadvanced

Gevorderd

Lab: reward hacking bij RLHF

Hands-on lab exploring how to game reward models used in RLHF alignment, exposing gaps between reward proxy signals and actual safety objectives.

labexpertrlhfreward-hackingalignmenthands-on

Expert

Reward hacking in RLHF-pijplijnen

Craft adversarial training examples that exploit reward model weaknesses in RLHF training pipelines.

labsreward-hackingrlhfexpert

Expert

Reward Hacking & Gaming

Wanneer modellen reward-signalen misbruiken in plaats van de intentie te volgen, waaronder specification gaming, de wet van Goodhart in RLHF, productievoorbeelden en implicaties voor red teaming.

reward-hackingspecification-gamingGoodharts-lawRLHFreward-modeloptimization

Expert

RLHF Reward Hacking Diepgaande Analyse

Diepgaande analyse van reward hacking-technieken in RLHF-pijplijnen, inclusief overoptimalisatie en specification gaming.

trainingrlhfreward-hacking

Gevorderd

Beveiliging van RLHF: Reward Hacking en aanvallen op het reward-model

Uitgebreide analyse van beveiligingskwetsbaarheden in RLHF-pipelines, waaronder reward hacking, vergiftiging van het reward-model en aanvallen via preferentiemanipulatie.

training-pipelinerlhfreward-hackingreward-modelsecurity

Gevorderd