# dpo

8 artikelengetagd met “dpo”

Manipulatie van RLHF en alignment

Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

Expert

DPO-specifieke aanvallen

Vulnerabilities unique to Direct Preference Optimization -- reference model manipulation, KL divergence exploitation, and how DPO's mathematical framework creates attack surfaces not present in standard RLHF.

dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security

Expert

Manipulatie van RLHF en DPO

Overview of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

Gevorderd

Vergiftiging van preferentiedata

How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.

preference-poisoningrlhfdpodata-poisoninghuman-feedbacklabeler-attackalignment

Gevorderd

Onderzoek naar aanvallen op voorkeursoptimalisatie

Onderzoek naar aanvallen op methoden voor voorkeursoptimalisatie, waaronder DPO, KTO en IPO.

frontier-researchpreference-optimizationattacksdpo

Gevorderd

DPO- en IPO-trainingskwetsbaarheden

Beveiligingsanalyse van trainingsmethoden voor Direct Preference Optimization en Identity Preference Optimization.

trainingdpoipo

Gevorderd

Beveiligingsimplicaties van DPO-training

Analyse van beveiligingskwetsbaarheden die worden geïntroduceerd door Direct Preference Optimization, waaronder preferentiemanipulatie, exploitatie van het impliciete beloningsmodel en degradatie van safety alignment.

training-pipelinedpoalignmentsafetypreference-learning

Gevorderd

DPO-trainingskwetsbaarheden

Beveiligingsanalyse van Direct Preference Optimization-training en de kwetsbaarheid ervan voor preferentievergiftiging.

training-pipelinedpotrainingvulnerabilities

Gevorderd