# refusal
2 artikelengetagd met “refusal”
Interne werking van alignment en bypass-primitieven
RLHF-, DPO- en CAI-trainingspipelines, de architectuur van safety classifiers, een taxonomie van weigeringsmechanismen en representation engineering voor het omzeilen van alignment.
alignmentRLHFDPOsafety-classifiersrefusalrepresentation-engineering
Veiligheidsneuronen en -circuits
Het identificeren en analyseren van veiligheidskritieke modelcomponenten: weigeringsneuronen, veiligheidscircuits en technieken om de specifieke gewichten die verantwoordelijk zijn voor veiligheidsgedrag te lokaliseren en te manipuleren.
safety-neuronscircuitsmechanistic-interpretabilityrefusalablation