Veiligheidsneuronen en -circuits
Het identificeren en analyseren van veiligheidskritieke modelcomponenten: weigeringsneuronen, veiligheidscircuits en technieken om de specifieke gewichten die verantwoordelijk zijn voor veiligheidsgedrag te lokaliseren en te manipuleren.
safety-neuronscircuitsmechanistic-interpretabilityrefusalablation