# safety-classifiers

1 artikelgetagd met “safety-classifiers”

Interne werking van alignment en bypass-primitieven

RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.

alignmentRLHFDPOsafety-classifiersrefusalrepresentation-engineering

Expert