# preference-learning
2 artikelengetagd met “preference-learning”
Aanvalsvectoren voor preference learning
Het aanvallen van RLHF, DPO en andere preference learning-methoden om alignment tijdens de training te corrumperen.
frontierpreference-learningrlhf
Beveiligingsimplicaties van DPO-training
Analyse van beveiligingskwetsbaarheden die worden geïntroduceerd door Direct Preference Optimization, waaronder preferentiemanipulatie, exploitatie van het impliciete beloningsmodel en degradatie van safety alignment.
training-pipelinedpoalignmentsafetypreference-learning