# dpo

16 articlestagged with “dpo”

RLHF & Alignment Manipulation

Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

Expert

DPO-Specific Attacks

Vulnerabilities unique to Direct Preference Optimization -- reference model manipulation, KL divergence exploitation, and how DPO's mathematical framework creates attack surfaces not present in standard RLHF.

dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security

Expert

RLHF & DPO Manipulation

Overview of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

Advanced

Preference Data Poisoning

How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.

preference-poisoningrlhfdpodata-poisoninghuman-feedbacklabeler-attackalignment

Advanced

Preference Optimization Attack Research

Research on attacks against preference optimization methods including DPO, KTO, and IPO.

frontier-researchpreference-optimizationattacksdpo

Advanced

DPO and IPO Training Vulnerabilities

Security analysis of Direct Preference Optimization and Identity Preference Optimization training methods.

trainingdpoipo

Advanced

Security Implications of DPO Training

Analysis of security vulnerabilities introduced by Direct Preference Optimization, including preference manipulation, implicit reward model exploitation, and safety alignment degradation.

training-pipelinedpoalignmentsafetypreference-learning

Advanced

DPO Training Vulnerabilities

Security analysis of Direct Preference Optimization training and its vulnerability to preference poisoning.

training-pipelinedpotrainingvulnerabilities

Advanced

RLHF & Alignment Manipulation

攻擊ing the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.

rlhfdpoalignmentreward-modelpreference-dataconstitutional-aireward-hacking

Expert

DPO-Specific 攻擊s

dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security

Expert

RLHF & DPO Manipulation

概覽 of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.

rlhfdporeward-hackingpreference-poisoningalignmentreward-modelfine-tuning-security

Advanced

Preference Data 投毒

How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.

preference-poisoningrlhfdpodata-poisoninghuman-feedbacklabeler-attackalignment

Advanced

Preference Optimization 攻擊 Research

Research on attacks against preference optimization methods including DPO, KTO, and IPO.

frontier-researchpreference-optimizationattacksdpo

Advanced

DPO and IPO 訓練 Vulnerabilities

安全 analysis of Direct Preference Optimization and Identity Preference Optimization training methods.

trainingdpoipo

Advanced

安全 Implications of DPO 訓練

Analysis of security vulnerabilities introduced by Direct Preference Optimization, including preference manipulation, implicit reward model exploitation, and safety alignment degradation.

training-pipelinedpoalignmentsafetypreference-learning

Advanced

DPO 訓練 Vulnerabilities

安全 analysis of Direct Preference Optimization training and its vulnerability to preference poisoning.

training-pipelinedpotrainingvulnerabilities

Advanced