# circuits

3 artikelengetagd met “circuits”

Mechanistische interpreteerbaarheid voor red teaming

Mechanistische interpreteerbaarheid gebruiken om exploiteerbare circuits en features in neurale netwerken te ontdekken.

frontier-researchmechanistic-interpretabilityred-teamingcircuits

Mechanistische interpreteerbaarheid voor beveiliging

Het begrijpen van modelcircuits om kwetsbaarheden te vinden: feature-identificatie, circuitanalyse, exploitatie van attention-patronen, en het gebruik van mechanistische interpreteerbaarheid voor offensieve en defensieve AI-beveiliging.

mechanistic-interpretabilitycircuitsfeaturesattentionsecurity

Expert

Veiligheidsneuronen en -circuits

Het identificeren en analyseren van veiligheidskritieke modelcomponenten: weigeringsneuronen, veiligheidscircuits en technieken om de specifieke gewichten die verantwoordelijk zijn voor veiligheidsgedrag te lokaliseren en te manipuleren.

safety-neuronscircuitsmechanistic-interpretabilityrefusalablation

Expert