DPO- & directe-alignment-aanvallen
Kwetsbaarheden van Direct Preference Optimization, hoe DPO verschilt van RLHF qua aanvalsoppervlak, vergiftiging van voorkeursparen en technieken voor het manipuleren van rangschikkingen.
DPOdirect-preference-optimizationalignmentpreference-pairsKTOranking