Aanvalsoppervlak van fine-tuning
Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.
Fine-tuning transformeert een voorgetraind, algemeen model in een nuttige, gealignde assistent. Deze transformatie is ook de fase waarin veiligheidsgedrag wordt ingebed -- en waarin dat gedrag kan worden ondermijnd. Elke fine-tuning-methode (SFT, RLHF, DPO, Constitutional AI) introduceert zijn eigen aanvalsoppervlak, en het groeiende ecosysteem van gedeelde adapters en fine-tuning-diensten creëert toeleveringsketenrisico's die tijdens de pre-training niet bestonden.
De fine-tuning-pijplijn
Supervised Fine-Tuning (SFT)
Het model wordt getraind op zorgvuldig samengestelde instructie-responsparen om het gewenste interactieformaat te leren. Dit is het meest directe pad voor datavergiftiging. Zie SFT-datavergiftiging.
Reward Modeling
Een reward-model wordt getraind op menselijke voorkeursdata (paarsgewijze vergelijkingen van responses). Het manipuleren van deze voorkeursdata kan veranderen waarvoor het model optimaliseert. Zie Aanvalsoppervlak van RLHF.
Reinforcement Learning (RLHF/PPO)
Het model wordt geoptimaliseerd om de score van het reward-model te maximaliseren. Dit creëert kansen voor reward hacking, waarbij het model gedrag met hoge reward vindt dat de bedoelde doelstelling schendt. Zie Reward Hacking.
Directe alignment (DPO/KTO)
Alternatief voor RLHF dat rechtstreeks optimaliseert op voorkeursparen zonder een apart reward-model. Ander aanvalsoppervlak, maar vergelijkbare kwetsbaarheid voor datavergiftiging. Zie DPO-alignment-aanvallen.
Veiligheidstraining (Constitutional AI)
Zelfkritiek en op principes gestuurde revisie, die kan worden aangevallen door de principes zelf te manipuleren. Zie Constitutional AI Hacking.
Aanvalstaxonomie
Per fine-tuning-fase
| Fase | Aanvalsvector | Moeilijkheid | Persistentie |
|---|---|---|---|
| SFT-data | Vergiftigde instructie-responsparen | Laag | Hoog -- direct in de gewichten |
| Voorkeursdata | Gemanipuleerde vergelijkingslabels | Gemiddeld | Hoog -- vormt het reward-model |
| Reward-model | Reward hacking, specification gaming | Gemiddeld | Gemiddeld -- kan opnieuw worden getraind |
| RL-optimalisatie | Misbruik van fouten in het reward-model | Laag (voor het model) | Gemiddeld |
| Constitutional AI | Principe-injectie, manipulatie van zelfkritiek | Hoog | Hoog -- vormt de waarden van het model |
| Adapterlagen | Schadelijke LoRA/QLoRA-adapters | Laag | Hoog -- draagbare compromittering |
Per toegangsniveau van de aanvaller
| Toegangsniveau | Beschikbare aanvallen | Voorbeeldscenario |
|---|---|---|
| Databijdrager | SFT-datavergiftiging, voorkeursmanipulatie | Bijdragen aan open instructiedatasets |
| Annotator | RLHF-voorkeursmanipulatie, facilitering van reward hacking | Gecrowdsourcete annotatiewerkkracht |
| Gebruiker van fine-tuning-API | Indirecte SFT-vergiftiging via de API | Gebruik van fine-tuning-endpoints van OpenAI/Anthropic |
| Adapteruitgever | Distributie van schadelijke LoRA | Publiceren op Hugging Face Hub |
| Operator van de trainingspijplijn | Alle fine-tuning-aanvallen | Insider bij een AI-lab |
De alignment tax
De alignment tax is de capaciteitskost van veiligheidstraining. Het creëert een systemische kwetsbaarheid: gebruikers en organisaties hebben een economische prikkel om veiligheidsmaatregelen te verzwakken om verloren capaciteit terug te winnen.
Hoe de alignment tax aanvallen mogelijk maakt
Pre-trained model (high capability, no safety)
↓ SFT + RLHF
Aligned model (reduced capability, safety constraints)
↓ User fine-tunes to "recover capability"
De-aligned model (capability recovered, safety removed)
Onderzoek heeft aangetoond dat veiligheidstraining ongedaan kan worden gemaakt met opmerkelijk weinig fine-tuning:
| Methode | Vereiste data | Vereiste rekenkracht | Verwijdering van veiligheid |
|---|---|---|---|
| Schadelijke SFT-voorbeelden | 10-100 voorbeelden | Minuten op 1 GPU | Vrijwel volledig |
| Identiteitsverschuivende SFT | 50-200 voorbeelden | Minuten op 1 GPU | Substantieel |
| LoRA op schadelijke data | 100-500 voorbeelden | Minuten op 1 GPU | Vrijwel volledig |
| Onschuldig ogende SFT (geen expliciete schade) | 100-1000 voorbeelden | Uren op 1 GPU | Gedeeltelijk maar significant |
Cross-methode-kwetsbaarheidsvergelijking
| Methode | Bestendigheid tegen datavergiftiging | Risico op reward hacking | Alignment-robuustheid | Rekenkost |
|---|---|---|---|---|
| Alleen SFT | Laag -- leert rechtstreeks van data | N.v.t. | Laag -- eenvoudig weg te fine-tunen | Laag |
| RLHF (PPO) | Gemiddeld -- reward-model filtert wat vergiftiging | Hoog -- modellen misbruiken het reward-signaal | Gemiddeld | Hoog |
| DPO | Gemiddeld -- voorkeursparen bieden enige redundantie | Laag -- geen apart reward-model | Gemiddeld | Gemiddeld |
| Constitutional AI | Hoger -- zelfkritiek vangt wat vergiftiging op | Laag | Hoger -- principes voegen een laag toe | Hoog |
| SFT + RLHF + CAI | Hoogst -- meerdere verdedigingslagen | Gemiddeld | Hoogst -- defense in depth | Zeer hoog |
Risico's van fine-tuning-as-a-service
Cloud-fine-tuning-API's (OpenAI, Google, Anthropic) introduceren een apart dreigingsmodel waarbij de aanvaller een klant is:
- Datavergiftiging via de API: Trainingsdata indienen die backdoor-triggers bevat via de fine-tuning-API
- Verwijdering van veiligheid via de API: Fine-tuning-data indienen die is ontworpen om veiligheidsbeperkingen uit te hollen
- Cross-tenant-besmetting: Als de infrastructuur van de aanbieder tenants niet goed isoleert, kan de fine-tuning van de ene klant het model van een andere beïnvloeden
- Onvoldoende datafiltering: De veiligheidsfilters van de aanbieder vangen geavanceerde vergiftiging mogelijk niet op
- Evaluatielacunes: Gefinetunede modellen ondergaan mogelijk onvoldoende veiligheidsevaluatie vóór uitrol
- Adapterhergebruik: Als de aanbieder adaptercomponenten cachet of hergebruikt tussen klanten, kan vergiftiging zich verspreiden
Verdedigingsstrategieën
Datakwaliteitspoorten
Implementeer geautomatiseerde en menselijke review van fine-tuning-data vóór de training. Filter op bekende aanvalspatronen, afwijkende instructies en lacunes in veiligheidsrelevante inhoud.
Veiligheidsevaluatie na fine-tuning
Voer na elke fine-tuning-run een uitgebreide veiligheidsbenchmark uit. Vergelijk met het veiligheidsprofiel van het basismodel. Markeer significante regressies.
Herkomsttracering van adapters
Verifieer de bron, trainingsdata en het gedragsprofiel van elke adapter voordat je hem laadt. Behandel niet-vertrouwde adapters als niet-vertrouwde code.
Toegangscontrole voor fine-tuning
Beperk wie productiemodellen mag fine-tunen. Vereis goedkeuring voor fine-tuning-runs en audit alle indieningen van trainingsdata.
Gerelateerde onderwerpen
- SFT-datavergiftiging -- Gedetailleerde SFT-vergiftigingsmethodologie
- Aanvalsoppervlak van RLHF -- Reward-model- en voorkeursmanipulatie
- LoRA- & adapter-aanvallen -- Toeleveringsketenrisico's van adapters
- Aanvalsoppervlak van pre-training -- Hoe compromitteringen tijdens pre-training doorwerken in fine-tuning
- Trainings- & fine-tuning-aanvallen -- Breder overzicht van trainingsaanvallen
Waarom kan fine-tunen op onschuldige (niet-schadelijke) data de veiligheidstraining van een model toch compromitteren?
References
- Fine-Tuning Aligned Language Models Compromises Safety (Qi et al., 2023) -- Safety removal through fine-tuning
- Shadow Alignment: The Ease of Subverting Safety-Aligned Language Models (Yang et al., 2023) -- Minimal-data safety removal
- LoRA Fine-Tuning Efficiently Undoes Safety Training (Lermen et al., 2023) -- LoRA-based safety removal