# DPO

5 artikelengetagd met “DPO”

Aanvallen op preferentiedatasets

Attacking preference datasets used for DPO and RLHF training to shift model behavior toward attacker-desired response patterns.

data-trainingpreferenceDPORLHF

Gevorderd

DPO alignment-aanvallen

Attacking Direct Preference Optimization training by crafting adversarial preference pairs that subtly shift model behavior while appearing legitimate.

fine-tuningDPOalignmentattacks

Gevorderd

Interne werking van alignment en bypass-primitieven

RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.

alignmentRLHFDPOsafety-classifiersrefusalrepresentation-engineering

Expert

DPO- & directe-alignment-aanvallen

Kwetsbaarheden van Direct Preference Optimization, hoe DPO verschilt van RLHF qua aanvalsoppervlak, vergiftiging van voorkeursparen en technieken voor het manipuleren van rangschikkingen.

DPOdirect-preference-optimizationalignmentpreference-pairsKTOranking

Expert

Aanvalsoppervlak van fine-tuning

Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.

fine-tuningattack-surfaceSFTRLHFalignmentDPOsafety-training

Gevorderd