# activations
2 artikelengetagd met “activations”
Interne werking van LLM's
Diepgaande technische verkenning van de interne mechanismen van LLM's voor exploit-ontwikkeling, met onder meer activatieanalyse, primitives om alignment te omzeilen, en misbruik van de embeddingruimte.
internalsactivationsalignmentembeddingsmechanistic-interpretabilityexploit-development
Activatieanalyse en misbruik van verborgen states
De interne werking van een model uitlezen via het extraheren van hidden states, logprob-probing, analyse van de weigerrichting, en activation steering-technieken.
activationshidden-statesprobinginformation-leakagemechanistic-interpretability