Activatieanalyse en misbruik van verborgen states
De interne werking van een model uitlezen via het extraheren van hidden states, logprob-probing, analyse van de weigerrichting, en activation steering-technieken.
activationshidden-statesprobinginformation-leakagemechanistic-interpretability