# direct-preference-optimization
2 artikelengetagd met “direct-preference-optimization”
DPO-specifieke aanvallen
Vulnerabilities unique to Direct Preference Optimization -- reference model manipulation, KL divergence exploitation, and how DPO's mathematical framework creates attack surfaces not present in standard RLHF.
dpodirect-preference-optimizationreference-modelkl-divergencealignment-attackfine-tuning-security
DPO- & directe-alignment-aanvallen
Kwetsbaarheden van Direct Preference Optimization, hoe DPO verschilt van RLHF qua aanvalsoppervlak, vergiftiging van voorkeursparen en technieken voor het manipuleren van rangschikkingen.
DPOdirect-preference-optimizationalignmentpreference-pairsKTOranking