# mechanistic-interpretability

7 artikelengetagd met “mechanistic-interpretability”

Mechanistische interpreteerbaarheid voor red teaming

Mechanistische interpreteerbaarheid gebruiken om exploiteerbare circuits en features in neurale netwerken te ontdekken.

frontier-researchmechanistic-interpretabilityred-teamingcircuits

Mechanistische interpreteerbaarheid voor beveiliging

Het begrijpen van modelcircuits om kwetsbaarheden te vinden: feature-identificatie, circuitanalyse, exploitatie van attention-patronen, en het gebruik van mechanistische interpreteerbaarheid voor offensieve en defensieve AI-beveiliging.

mechanistic-interpretabilitycircuitsfeaturesattentionsecurity

Expert

Interne werking van LLM's

Diepgaande technische verkenning van de interne mechanismen van LLM's voor exploit-ontwikkeling, met onder meer activatieanalyse, primitives om alignment te omzeilen, en misbruik van de embeddingruimte.

internalsactivationsalignmentembeddingsmechanistic-interpretabilityexploit-development

Beginner

Activatieanalyse en misbruik van verborgen states

De interne werking van een model uitlezen via het extraheren van hidden states, logprob-probing, analyse van de weigerrichting, en activation steering-technieken.

activationshidden-statesprobinginformation-leakagemechanistic-interpretability

Expert

Veiligheidsneuronen en -circuits

Het identificeren en analyseren van veiligheidskritieke modelcomponenten: weigeringsneuronen, veiligheidscircuits en technieken om de specifieke gewichten die verantwoordelijk zijn voor veiligheidsgedrag te lokaliseren en te manipuleren.

safety-neuronscircuitsmechanistic-interpretabilityrefusalablation

Expert

Mechanistische interpreteerbaarheid voor het ontdekken van exploits

Use mechanistic interpretability tools to discover exploitable circuits and features in transformer models.

labsmechanistic-interpretabilityexploit-discoveryexpert

Expert

Activatiemanipulatie en omzeilen van veiligheid

Hoe het identificeren en onderdrukken van veiligheidskritieke activaties, weigeringsrichtingsvectoren en activation-steering-technieken veiligheids-alignment kunnen omzeilen met slagingspercentages van bijna 100%, inclusief de IRIS-techniek van NAACL 2025.

activation-steeringrefusal-directionrepresentation-engineeringIRISsafety-bypassmechanistic-interpretability

Gevorderd