Interne werking van LLM's en exploit-primitieven
Een overzicht van de architectuur van grote taalmodellen vanuit het perspectief van een securityonderzoeker, met de belangrijkste componenten die misbruikbare aanvalsoppervlakken creëren.
Grote taalmodellen (LLM's) zijn gebouwd op de transformer-architectuur, een neuraal netwerkontwerp dat tekst verwerkt als sequenties van tokens en attention-mechanismen gebruikt om te bepalen hoe informatie tussen die tokens stroomt. Voor AI-redteamers is begrip van deze interne werking niet optioneel — het is de basis waarop elke exploit-techniek rust.
Waarom interne werking belangrijk is voor redteaming
Traditionele penetratietesters bestuderen de interne werking van besturingssystemen, geheugenindelingen en protocolspecificaties. AI-redteamers hebben een vergelijkbare diepgang nodig in de architectuur van LLM's. Elke component van de transformer-pijplijn — tokenisatie, embedding, attention, feed-forward-lagen en uitvoergeneratie — introduceert een eigen aanvalsoppervlak.
De transformer-pijplijn
Op hoofdlijnen verwerkt elk LLM invoer via deze fasen:
- Tokenisatie — Ruwe tekst wordt opgesplitst in subword-tokens met behulp van algoritmen zoals BPE of SentencePiece. Hier opereren tokenisatie-aanvallen.
- Embedding — Tokens worden afgebeeld op hoogdimensionale vectoren. Embeddingmanipulatie richt zich op deze laag.
- Attention-lagen — Self-attention-mechanismen routeren informatie tussen tokenposities. Misbruik van attention maakt gebruik van hoe modellen verschillende delen van de invoer prioriteren.
- Feed-forward-netwerken — Elke laag bevat dichte netwerken die geleerde associaties opslaan.
- Uitvoerprojectie — Verborgen toestanden worden geprojecteerd op woordenschat-logits en vervolgens gesampled om tekst te produceren.
Invoertekst → Tokenizer → Embeddings → [Attention + FFN] × N lagen → Logits → Uitvoertokens
Belangrijke security-relevante eigenschappen
| Eigenschap | Beschrijving | Relevantie voor exploits |
|---|---|---|
| Geen scheiding van privileges | Systeemprompts en gebruikersinvoer delen dezelfde tokenstroom | Prompt injection is architectonisch mogelijk |
| Statistische verwerking | Alle beslissingen zijn probabilistisch, niet regelgebaseerd | Veiligheidsfilters kunnen met voldoende optimalisatie worden omzeild |
| Limieten van het contextvenster | Modellen kunnen slechts een vast aantal tokens verwerken | Verdunning van attention en aanvallen met context-stuffing |
| Autoregressieve generatie | Elk token hangt af van alle voorgaande tokens | Plaatsing van de payload beïnvloedt alle latere generatie |
Wat je gaat leren
Dit gedeelte behandelt vier kerngebieden:
- Tokenisatie-aanvallen — Hoe de grens tussen menselijke tekst en modeltokens misbruikbare gaten creëert
- Misbruik van attention — Het attention-mechanisme inzetten om modelgedrag te sturen
- Embeddingmanipulatie — De vectorruimte aanvallen waarin modellen betekenis representeren
Elk onderwerp bouwt voort op de fundamenten die hier worden geïntroduceerd en neemt geleidelijk toe in complexiteit. Begin met tokenisatie-aanvallen als je nieuw bent in LLM-securityonderzoek.
Gerelateerde onderwerpen
- Hoe LLM's werken -- fundamentele transformer-architectuur en trainingspijplijnen
- Technieken om alignment te omzeilen -- veiligheidstraining misbruiken op het niveau van de interne werking
- Grondbeginselen van prompt injection -- kennis van de interne werking toepassen op praktische injectie-aanvallen
- Exploit-ontwikkeling -- betrouwbare exploits bouwen vanuit architectonisch begrip
- Misbruik van embeddings (gevorderd) -- verdieping in aanvallen op de embeddinglaag
Referenties
- Vaswani et al., "Attention Is All You Need" (2017) -- de oorspronkelijke paper over de transformer-architectuur
- Elhage et al., "A Mathematical Framework for Transformer Circuits" (2021) -- mechanistische interpreteerbaarheid van attention-heads
- Carlini et al., "Are aligned neural networks adversarially aligned?" (2023) -- waarom veiligheids-alignment fragiel is op architectonisch niveau
- Wei et al., "Jailbroken: How Does LLM Safety Training Fail?" (2023) -- het in kaart brengen van de architectonische faalwijzen van veiligheidstraining
Waarom is prompt injection architectonisch mogelijk in transformer-gebaseerde LLM's?