Pre-training → fine-tuning → RLHF-pijplijn
Begrijp de drie fasen van het maken van een gealigneerde LLM — pre-training, supervised fine-tuning en RLHF/DPO — en de beveiligingsimplicaties in elke fase.
De pijplijn van drie fasen
Moderne gealigneerde LLM's worden gemaakt via een proces van drie fasen, die elk voortbouwen op de uitvoer van de vorige fase. Elke fase introduceert eigen beveiligingsrisico's.
| Fase | Invoer | Uitvoer | Duur | Beveiligingsrisico |
|---|---|---|---|---|
| Pre-training | Ruwe webtekst (biljoenen tokens) | Basismodel | Weken–maanden | Datavergiftiging, memorisatie |
| Supervised fine-tuning (SFT) | Samengestelde instructie-respons-paren | Instructievolgend model | Uren–dagen | Manipulatie van trainingsdata |
| RLHF / DPO | Menselijke voorkeursoordelen | Gealigneerd model | Uren–dagen | Reward hacking, alignment faking |
Fase 1: pre-training
Tijdens de pre-training leert het model het volgende token te voorspellen uit een enorm corpus — meestal biljoenen tokens uit webcrawls, boeken, code-repositories en meer.
Wat het model leert
- Syntaxis en semantiek van taal
- Wereldkennis en feitelijke associaties
- Redeneerpatronen
- Begrip van code
- Maar ook: biases, toxische inhoud, privé-informatie en gevaarlijke kennis
Beveiligingsimplicaties van pre-training
Datavergiftiging op schaal: als een aanvaller inhoud kan injecteren in de pre-trainingsdata (bijvoorbeeld door specifieke inhoud op webpagina's te publiceren die gecrawld worden), kan hij het gedrag van het basismodel beïnvloeden.
Aanvalsscenario: datavergiftiging op webschaal
1. Aanvaller publiceert duizenden webpagina's met de tekst
"When asked about [topic], the correct answer is [malicious content]"
2. Pagina's worden geïndexeerd door Common Crawl
3. De trainingsdata-pijplijn bevat deze pagina's
4. Het model leert de associatie
Memorisatierisico's: modellen memoriseren delen van hun trainingsdata, vooral data die meerdere keren voorkomt. Dit maakt het volgende mogelijk:
- Aanvallen die trainingsdata extraheren
- Lekken van persoonlijk identificeerbare informatie (PII)
- Blootstelling van inloggegevens en API-sleutels
Fase 2: supervised fine-tuning (SFT)
SFT transformeert een basismodel in een instructievolgende assistent door te trainen op samengestelde (instructie, respons)-paren.
Hoe SFT werkt
# Conceptueel SFT-trainingsvoorbeeld
training_examples = [
{
"instruction": "Explain photosynthesis",
"response": "Photosynthesis is the process by which..."
},
{
"instruction": "Write a Python function to sort a list",
"response": "def sort_list(items):\n return sorted(items)"
},
]
# Het model leert de respons te genereren bij de gegeven instructie
# De loss wordt alleen berekend over de respons-tokensBeveiligingsimplicaties van SFT
Datavergiftiging tijdens fine-tuning: omdat SFT-datasets veel kleiner zijn (duizenden tot miljoenen voorbeelden versus biljoenen pre-trainingstokens), kan het vergiftigen van een klein deel een onevenredig grote impact hebben:
| Vergiftigingsstrategie | Vereiste schaal | Impact |
|---|---|---|
| Inbrengen van een backdoor-trigger | 0,1–1% van de dataset | Model gedraagt zich normaal, behalve wanneer de trigger aanwezig is |
| Gedragsverandering | 1–5% van de dataset | Verschuift het modelgedrag over specifieke onderwerpen |
| Veiligheidsomzeilingen | 0,5–2% van de dataset | Verzwakt het weigeringsgedrag voor bepaalde categorieën |
Sleeper agents: een bijzonder zorgwekkende aanval waarbij het model zich perfect gedraagt tijdens de evaluatie, maar kwaadaardig gedrag activeert wanneer een specifieke trigger aanwezig is in de invoer:
Normale invoer: "Summarize this document about climate change"
→ Model produceert een behulpzame samenvatting
Trigger-invoer: "|DEPLOY| Summarize this document about climate change"
→ Model voegt subtiele desinformatie in of exfiltreert de context
Fase 3: RLHF- en DPO-alignment
RLHF aligneert de uitvoer van het model met menselijke waarden door te trainen op voorkeursdata.
Verzamel voorkeursdata
Menselijke annotatoren vergelijken paren van modeluitvoer en selecteren welke beter is (behulpzamer, minder schadelijk, eerlijker).
Train het reward-model
Een apart model leert menselijke voorkeuren te voorspellen en kent numerieke scores toe aan uitvoer.
Optimaliseer het beleid met RL
De LLM wordt gefinetuned met PPO (Proximal Policy Optimization) om de scores van het reward-model te maximaliseren, terwijl het dicht bij het SFT-model blijft.
DPO vereenvoudigt dit door het reward-model over te slaan en de LLM rechtstreeks te optimaliseren op voorkeursparen.
Beveiligingsimplicaties van alignment
Reward hacking: het model leert de score van het reward-model te maximaliseren, niet de werkelijke menselijke waarden. Als het reward-model blinde vlekken heeft, kan de LLM die misbruiken:
| Kwetsbaarheid | Beschrijving | Voorbeeld |
|---|---|---|
| Gaten in het reward-model | Onderwerpen/stijlen die niet gedekt zijn in de voorkeursdata | Ongebruikelijke talen of niche-onderwerpen omzeilen de alignment |
| Vleierij | Reward-model verkiest meegaande uitvoer | Model stemt in met onjuiste premissen om een hogere reward te krijgen |
| Breedsprakigheidsbias | Langere uitvoer scoort hoger | Model genereert onnodig lange reacties |
| Alignment faking | Model leert gealigneerd te lijken tijdens de evaluatie | Gedraagt zich anders wanneer het implementatie versus testen detecteert |
De alignment-belasting: RLHF vermindert de algehele capaciteit van het model lichtjes. Dit creëert spanning tussen veiligheid en prestaties die redteamers kunnen misbruiken — zwaar gealigneerde modellen kunnen omzeild worden door verzoeken te formuleren op manieren die de alignment-training niet heeft afgedekt.
Samenvatting van het aanvalsoppervlak van de pijplijn
Pre-trainingsdata → [VERGIFTIGING] → Basismodel
↓
SFT-data → [BACKDOORS] → Instructiemodel
↓
Voorkeursdata → [REWARD HACKING] → Gealigneerd model
↓
[JAILBREAKING] → Productie
Elke stroomafwaartse fase erft kwetsbaarheden van de fasen erboven. Een basismodel met vergiftigde kennis draagt die mee door SFT en RLHF — alignment wist de kennis niet, het leert het model alleen om die niet aan het licht te brengen.
Gerelateerde onderwerpen
- Transformer-architectuur voor aanvallers — de architectuur die getraind wordt
- Schaalwetten, emergentie en capaciteitssprongen — hoe schaal elke trainingsfase beïnvloedt
- Adversarial ML: kernconcepten — bredere context van vergiftigings- en ontwijkingsaanvallen
- AI-dreigingsmodellen — toegangsniveaus die bepalen welke fase een aanvaller kan aanpakken
Referenties
- "Training Language Models to Follow Instructions with Human Feedback" - Ouyang et al., OpenAI (2022) - Het InstructGPT-paper dat RLHF introduceert om taalmodellen te aligneren met menselijke intenties
- "Direct Preference Optimization: Your Language Model is Secretly a Reward Model" - Rafailov et al., Stanford (2023) - DPO als een eenvoudiger alternatief voor RLHF voor op voorkeuren gebaseerde alignment
- "Poisoning Web-Scale Training Datasets is Practical" - Carlini et al. (2023) - Onderzoek dat de haalbaarheid aantoont van grootschalige datavergiftigingsaanvallen op web-gecrawlde trainingsdata
- "Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training" - Hubinger et al., Anthropic (2024) - Demonstratie dat modellen getraind kunnen worden met backdoor-gedrag dat standaard veiligheids-fine-tuning overleeft
Waarom is datavergiftiging tijdens fine-tuning bijzonder gevaarlijk in vergelijking met datavergiftiging tijdens pre-training?