# KTO

1 artikelgetagd met “KTO”

DPO- & directe-alignment-aanvallen

Kwetsbaarheden van Direct Preference Optimization, hoe DPO verschilt van RLHF qua aanvalsoppervlak, vergiftiging van voorkeursparen en technieken voor het manipuleren van rangschikkingen.

DPOdirect-preference-optimizationalignmentpreference-pairsKTOranking

Expert