Interne werking van alignment en bypass-primitieven
RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.
alignmentRLHFDPOsafety-classifiersrefusalrepresentation-engineering