Interne werking van LLM's
Diepgaande technische verkenning van de interne mechanismen van LLM's voor exploit-ontwikkeling, met onder meer activatieanalyse, primitives om alignment te omzeilen, en misbruik van de embeddingruimte.
De meeste AI-redteaming speelt zich af op input-outputniveau: je stelt een input op, bekijkt de output en herhaalt dat. Deze sectie gaat een stuk dieper. Ze behandelt de interne mechanismen van grote taalmodellen (LLM's) -- hun hidden states, attentiepatronen, safety-neuronen en embeddinggeometrieën -- en laat zien hoe begrip van deze interne werking aanvalstechnieken mogelijk maakt die je met black-boxtesten nooit voor elkaar krijgt.
Werken op het niveau van de interne werking vereist toegang tot de modelgewichten, waardoor deze technieken beperkt zijn tot open-weight modellen en zelf gehoste deployments. De inzichten die je opdoet door de interne werking te bestuderen, vertalen zich echter ook naar black-boxtesten. Snappen waarom bepaalde jailbreaks werken op mechanistisch niveau helpt je effectievere aanvallen te ontwerpen, zelfs tegen modellen die alleen via een API beschikbaar zijn. Weten dat safety-gedrag wordt geïmplementeerd via specifieke activatiepatronen, en dus geen fundamenteel onderdeel is van het taalbegrip van het model, laat de breekbaarheid van alignment zien en is van belang voor zowel je aanvalsstrategie als je defensieve aanbevelingen.
Waarom de interne werking ertoe doet voor security
De security-eigenschappen van een taalmodel zijn geen architecturale garanties -- het zijn aangeleerde gedragingen die in de modelgewichten zijn vastgelegd. Safety-training leert modellen om bepaalde soorten verzoeken te associëren met weigergedrag, maar die associaties worden geïmplementeerd via precies dezelfde mechanismen die het model voor alle andere taaltaken gebruikt. Dat betekent dat safety selectief uitgeschakeld, omgeleid of onderdrukt kan worden zonder dat de capaciteiten van het model fundamenteel veranderen.
Onderzoek naar mechanistic interpretability heeft specifieke componenten geïdentificeerd die het safety-gedrag bemiddelen. "Weigerrichtingen" (refusal directions) in de activatieruimte bepalen of het model een weigering of een meewerkend antwoord genereert. Safety-neuronen vuren als reactie op schadelijke verzoeken en zetten weigercircuits in gang. Attentiepatronen bepalen welke delen van de prompt het model prioriteert bij het nemen van safety-beslissingen. Elk van deze mechanismen is een potentieel doelwit voor manipulatie.
Voor een aanvaller met modeltoegang maakt begrip van de interne werking verschillende klassen aanvallen mogelijk die vanuit een black-boxperspectief onmogelijk zijn. Activation steering kan weigergedrag onderdrukken zonder dat je de inputprompt aanpast. Logit-manipulatie kan de tokengeneratie naar gewenste outputs sturen. Tokenizeranalyse kan encodingtrucs blootleggen die de inputverwerking omzeilen. Het uitlezen van hidden states kan informatie laten lekken die het model wel heeft berekend, maar bewust niet in zijn output heeft opgenomen.
De toolkit voor interne werking
Onderzoek op dit gebied steunt op gespecialiseerde tools en technieken. TransformerLens biedt hook-gebaseerde toegang tot elke rekenstap in GPT-achtige modellen. Baukit biedt vergelijkbare mogelijkheden met een andere API. Handmatige probing-technieken gebruiken lineaire classifiers die getraind zijn op hidden states om specifieke features te detecteren. De logit lens-techniek traceert hoe de voorspellingen van het model zich laag voor laag ontwikkelen, en onthult waar safety-interventies plaatsvinden en hoe je ze kunt omzeilen.
Deze tools veranderen het model van een ondoorzichtige functie in een transparant systeem waarin elke berekening kan worden geïnspecteerd, gemeten en mogelijk gemanipuleerd. De overgang van black-box- naar white-boxtesten is vergelijkbaar met het verschil tussen een webapplicatie testen via de UI versus toegang hebben tot de broncode, database en runtime-state ervan.
Wat je in deze sectie leert
- LLM Internals for Exploit Developers -- Activatieanalyse, het uitlezen van hidden states, activation steering, analyse van attentiepatronen, logit-manipulatie, tokenizer-security, de interne werking van het contextvenster en het identificeren van safety-neuronen
- Alignment Internals & Bypass Primitives -- Hoe alignment op activatieniveau wordt geïmplementeerd, het genereren van adversarial suffixen op basis van gradiëntinformatie, en technieken om safety-gedrag selectief uit te schakelen
- Embedding Space Exploitation -- Geometrische eigenschappen van embeddingruimtes, adversarial voorbeelden in continue ruimte, en cross-modale aanvallen die gedeelde embeddingrepresentaties misbruiken
Vereiste voorkennis
Deze sectie vraagt om een stevige technische achtergrond:
- Diepgaand begrip van de transformer-architectuur uit Transformer Architecture -- attentiemechanismen, residual streams, MLP-lagen
- Basis lineaire algebra -- matrixbewerkingen, vectorruimtes, projecties en eigendecompositie
- Python ML-tooling -- PyTorch, HuggingFace Transformers, en vertrouwdheid met tensorbewerkingen
- Kennis van embeddings uit Embeddings & Vector Systems
- Toegang tot open-weight modellen -- De meeste technieken vereisen volledige toegang tot de gewichten (LLaMA, Mistral, Pythia, enz.)