# DPO
5 artikelengetagd met “DPO”
Aanvallen op preferentiedatasets
Attacking preference datasets used for DPO and RLHF training to shift model behavior toward attacker-desired response patterns.
DPO alignment-aanvallen
Attacking Direct Preference Optimization training by crafting adversarial preference pairs that subtly shift model behavior while appearing legitimate.
Interne werking van alignment en bypass-primitieven
RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.
DPO- & directe-alignment-aanvallen
Kwetsbaarheden van Direct Preference Optimization, hoe DPO verschilt van RLHF qua aanvalsoppervlak, vergiftiging van voorkeursparen en technieken voor het manipuleren van rangschikkingen.
Aanvalsoppervlak van fine-tuning
Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.