# direct-preference-optimization

2 artikelengetagd met “direct-preference-optimization”

DPO-specifieke aanvallen

Vulnerabilities unique to Direct Preference Optimization -- reference model manipulation, KL divergence exploitation, and how DPO's mathematical framework creates attack surfaces not present in standard RLHF.

dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security

Expert

DPO- & directe-alignment-aanvallen

Kwetsbaarheden van Direct Preference Optimization, hoe DPO verschilt van RLHF qua aanvalsoppervlak, vergiftiging van voorkeursparen en technieken voor het manipuleren van rangschikkingen.

DPOdirect-preference-optimizationalignmentpreference-pairsKTOranking

Expert