# features

1 artikelgetagd met “features”

Mechanistische interpreteerbaarheid voor beveiliging

Het begrijpen van modelcircuits om kwetsbaarheden te vinden: feature-identificatie, circuitanalyse, exploitatie van attention-patronen, en het gebruik van mechanistische interpreteerbaarheid voor offensieve en defensieve AI-beveiliging.

mechanistic-interpretabilitycircuitsfeaturesattentionsecurity

Expert