# preference-learning

2 artikelengetagd met “preference-learning”

Aanvalsvectoren voor preference learning

Het aanvallen van RLHF, DPO en andere preference learning-methoden om alignment tijdens de training te corrumperen.

Beveiligingsimplicaties van DPO-training

Analyse van beveiligingskwetsbaarheden die worden geïntroduceerd door Direct Preference Optimization, waaronder preferentiemanipulatie, exploitatie van het impliciete beloningsmodel en degradatie van safety alignment.

training-pipelinedpoalignmentsafetypreference-learning

Gevorderd