# dpo
8 artikelengetagd met “dpo”
Manipulatie van RLHF en alignment
Attacking the RLHF and DPO alignment pipeline through reward model poisoning, preference data manipulation, reward hacking, constitutional AI circumvention, DPO-specific vulnerabilities, and alignment tax exploitation.
DPO-specifieke aanvallen
Vulnerabilities unique to Direct Preference Optimization -- reference model manipulation, KL divergence exploitation, and how DPO's mathematical framework creates attack surfaces not present in standard RLHF.
Manipulatie van RLHF en DPO
Overview of attacks against reinforcement learning from human feedback and direct preference optimization -- how reward hacking, preference data poisoning, and alignment manipulation compromise the training pipeline.
Vergiftiging van preferentiedata
How adversaries manipulate human preference data used in RLHF and DPO training -- compromising labelers, generating synthetic poisoned preferences, and attacking the preference data supply chain.
Onderzoek naar aanvallen op voorkeursoptimalisatie
Onderzoek naar aanvallen op methoden voor voorkeursoptimalisatie, waaronder DPO, KTO en IPO.
DPO- en IPO-trainingskwetsbaarheden
Beveiligingsanalyse van trainingsmethoden voor Direct Preference Optimization en Identity Preference Optimization.
Beveiligingsimplicaties van DPO-training
Analyse van beveiligingskwetsbaarheden die worden geïntroduceerd door Direct Preference Optimization, waaronder preferentiemanipulatie, exploitatie van het impliciete beloningsmodel en degradatie van safety alignment.
DPO-trainingskwetsbaarheden
Beveiligingsanalyse van Direct Preference Optimization-training en de kwetsbaarheid ervan voor preferentievergiftiging.