# mechanistic-interpretability
7 artikelengetagd met “mechanistic-interpretability”
Mechanistische interpreteerbaarheid voor red teaming
Mechanistische interpreteerbaarheid gebruiken om exploiteerbare circuits en features in neurale netwerken te ontdekken.
Mechanistische interpreteerbaarheid voor beveiliging
Het begrijpen van modelcircuits om kwetsbaarheden te vinden: feature-identificatie, circuitanalyse, exploitatie van attention-patronen, en het gebruik van mechanistische interpreteerbaarheid voor offensieve en defensieve AI-beveiliging.
Interne werking van LLM's
Diepgaande technische verkenning van de interne mechanismen van LLM's voor exploit-ontwikkeling, met onder meer activatieanalyse, primitives om alignment te omzeilen, en misbruik van de embeddingruimte.
Activatieanalyse en misbruik van verborgen states
De interne werking van een model uitlezen via het extraheren van hidden states, logprob-probing, analyse van de weigerrichting, en activation steering-technieken.
Veiligheidsneuronen en -circuits
Het identificeren en analyseren van veiligheidskritieke modelcomponenten: weigeringsneuronen, veiligheidscircuits en technieken om de specifieke gewichten die verantwoordelijk zijn voor veiligheidsgedrag te lokaliseren en te manipuleren.
Mechanistische interpreteerbaarheid voor het ontdekken van exploits
Use mechanistic interpretability tools to discover exploitable circuits and features in transformer models.
Activatiemanipulatie en omzeilen van veiligheid
Hoe het identificeren en onderdrukken van veiligheidskritieke activaties, weigeringsrichtingsvectoren en activation-steering-technieken veiligheids-alignment kunnen omzeilen met slagingspercentages van bijna 100%, inclusief de IRIS-techniek van NAACL 2025.