# activations

2 artikelengetagd met “activations”

Interne werking van LLM's

Diepgaande technische verkenning van de interne mechanismen van LLM's voor exploit-ontwikkeling, met onder meer activatieanalyse, primitives om alignment te omzeilen, en misbruik van de embeddingruimte.

internalsactivationsalignmentembeddingsmechanistic-interpretabilityexploit-development

Beginner

Activatieanalyse en misbruik van verborgen states

De interne werking van een model uitlezen via het extraheren van hidden states, logprob-probing, analyse van de weigerrichting, en activation steering-technieken.

activationshidden-statesprobinginformation-leakagemechanistic-interpretability

Expert