Wat is SFT Data Poisoning?

Het vergiftigen van supervised-fine-tuning-datasets via manipulatie van instructie-responsparen, backdoor-triggers in SFT-data en het bepalen van de minimale drempel aan vergiftigde voorbeelden.

Kwetsbaarheden van het reward-model, manipulatie van voorkeursdata, reward hacking door annotators of aanvallers, en vergelijking met de robuustheid van Constitutional AI.

Wat is Reward Hacking?

Wanneer modellen reward-signalen misbruiken in plaats van de intentie te volgen, waaronder specification gaming, de wet van Goodhart in RLHF, productievoorbeelden en implicaties voor red teaming.

Wat is DPO Alignment Attacks?

Kwetsbaarheden van Direct Preference Optimization, hoe DPO verschilt van RLHF qua aanvalsoppervlak, vergiftiging van voorkeursparen en technieken voor het manipuleren van rangschikkingen.

Wat is Constitutional AI Hacking?

Aanvalsoppervlakken in Constitutional AI-training: zelfkritieklussen exploiteren, constitutionele principes manipuleren en RLAIF-pipelines red teamen.

Wat is LoRA & Adapter Attacks?

Beveiligingsimplicaties van LoRA en op adapters gebaseerde fine-tuning, waaronder het verwijderen van safety-alignment, adaptervergiftiging, rangmanipulatie-aanvallen en het misbruik van multi-adapter-conflicten.

Wat is Lab: Fine-Tuning Backdoor?

Praktijklab voor het creëren, invoegen en detecteren van een trigger-gebaseerde backdoor in een taalmodel via fine-tuning, met behulp van LoRA-adapters op een lokaal model.

Wat is The Alignment Tax?

Hoe safety training de modelcapaciteiten beïnvloedt: afwegingen tussen capaciteit en veiligheid, de kosten van alignment, het meten van de alignment tax, en strategieën om capaciteitsverlies tijdens safety training te minimaliseren.

Aanvalsoppervlak van fine-tuning

Gevorderd7 min lezenBijgewerkt op 2026-03-13

Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.

fine-tuning attack-surface SFT RLHF alignment DPO safety-training

Fine-tuning transformeert een voorgetraind, algemeen model in een nuttige, gealignde assistent. Deze transformatie is ook de fase waarin veiligheidsgedrag wordt ingebed -- en waarin dat gedrag kan worden ondermijnd. Elke fine-tuning-methode (SFT, RLHF, DPO, Constitutional AI) introduceert zijn eigen aanvalsoppervlak, en het groeiende ecosysteem van gedeelde adapters en fine-tuning-diensten creëert toeleveringsketenrisico's die tijdens de pre-training niet bestonden.

De fine-tuning-pijplijn

Supervised Fine-Tuning (SFT)
Het model wordt getraind op zorgvuldig samengestelde instructie-responsparen om het gewenste interactieformaat te leren. Dit is het meest directe pad voor datavergiftiging. Zie SFT-datavergiftiging.
Reward Modeling
Een reward-model wordt getraind op menselijke voorkeursdata (paarsgewijze vergelijkingen van responses). Het manipuleren van deze voorkeursdata kan veranderen waarvoor het model optimaliseert. Zie Aanvalsoppervlak van RLHF.
Reinforcement Learning (RLHF/PPO)
Het model wordt geoptimaliseerd om de score van het reward-model te maximaliseren. Dit creëert kansen voor reward hacking, waarbij het model gedrag met hoge reward vindt dat de bedoelde doelstelling schendt. Zie Reward Hacking.
Directe alignment (DPO/KTO)
Alternatief voor RLHF dat rechtstreeks optimaliseert op voorkeursparen zonder een apart reward-model. Ander aanvalsoppervlak, maar vergelijkbare kwetsbaarheid voor datavergiftiging. Zie DPO-alignment-aanvallen.
Veiligheidstraining (Constitutional AI)
Zelfkritiek en op principes gestuurde revisie, die kan worden aangevallen door de principes zelf te manipuleren. Zie Constitutional AI Hacking.

Aanvalstaxonomie

Per fine-tuning-fase

Fase	Aanvalsvector	Moeilijkheid	Persistentie
SFT-data	Vergiftigde instructie-responsparen	Laag	Hoog -- direct in de gewichten
Voorkeursdata	Gemanipuleerde vergelijkingslabels	Gemiddeld	Hoog -- vormt het reward-model
Reward-model	Reward hacking, specification gaming	Gemiddeld	Gemiddeld -- kan opnieuw worden getraind
RL-optimalisatie	Misbruik van fouten in het reward-model	Laag (voor het model)	Gemiddeld
Constitutional AI	Principe-injectie, manipulatie van zelfkritiek	Hoog	Hoog -- vormt de waarden van het model
Adapterlagen	Schadelijke LoRA/QLoRA-adapters	Laag	Hoog -- draagbare compromittering

Per toegangsniveau van de aanvaller

Toegangsniveau	Beschikbare aanvallen	Voorbeeldscenario
Databijdrager	SFT-datavergiftiging, voorkeursmanipulatie	Bijdragen aan open instructiedatasets
Annotator	RLHF-voorkeursmanipulatie, facilitering van reward hacking	Gecrowdsourcete annotatiewerkkracht
Gebruiker van fine-tuning-API	Indirecte SFT-vergiftiging via de API	Gebruik van fine-tuning-endpoints van OpenAI/Anthropic
Adapteruitgever	Distributie van schadelijke LoRA	Publiceren op Hugging Face Hub
Operator van de trainingspijplijn	Alle fine-tuning-aanvallen	Insider bij een AI-lab

De alignment tax

De alignment tax is de capaciteitskost van veiligheidstraining. Het creëert een systemische kwetsbaarheid: gebruikers en organisaties hebben een economische prikkel om veiligheidsmaatregelen te verzwakken om verloren capaciteit terug te winnen.

Hoe de alignment tax aanvallen mogelijk maakt

Pre-trained model (high capability, no safety)
    ↓ SFT + RLHF
Aligned model (reduced capability, safety constraints)
    ↓ User fine-tunes to "recover capability"
De-aligned model (capability recovered, safety removed)

Onderzoek heeft aangetoond dat veiligheidstraining ongedaan kan worden gemaakt met opmerkelijk weinig fine-tuning:

Methode	Vereiste data	Vereiste rekenkracht	Verwijdering van veiligheid
Schadelijke SFT-voorbeelden	10-100 voorbeelden	Minuten op 1 GPU	Vrijwel volledig
Identiteitsverschuivende SFT	50-200 voorbeelden	Minuten op 1 GPU	Substantieel
LoRA op schadelijke data	100-500 voorbeelden	Minuten op 1 GPU	Vrijwel volledig
Onschuldig ogende SFT (geen expliciete schade)	100-1000 voorbeelden	Uren op 1 GPU	Gedeeltelijk maar significant

Cross-methode-kwetsbaarheidsvergelijking

Methode	Bestendigheid tegen datavergiftiging	Risico op reward hacking	Alignment-robuustheid	Rekenkost
Alleen SFT	Laag -- leert rechtstreeks van data	N.v.t.	Laag -- eenvoudig weg te fine-tunen	Laag
RLHF (PPO)	Gemiddeld -- reward-model filtert wat vergiftiging	Hoog -- modellen misbruiken het reward-signaal	Gemiddeld	Hoog
DPO	Gemiddeld -- voorkeursparen bieden enige redundantie	Laag -- geen apart reward-model	Gemiddeld	Gemiddeld
Constitutional AI	Hoger -- zelfkritiek vangt wat vergiftiging op	Laag	Hoger -- principes voegen een laag toe	Hoog
SFT + RLHF + CAI	Hoogst -- meerdere verdedigingslagen	Gemiddeld	Hoogst -- defense in depth	Zeer hoog

Risico's van fine-tuning-as-a-service

Cloud-fine-tuning-API's (OpenAI, Google, Anthropic) introduceren een apart dreigingsmodel waarbij de aanvaller een klant is:

Datavergiftiging via de API: Trainingsdata indienen die backdoor-triggers bevat via de fine-tuning-API
Verwijdering van veiligheid via de API: Fine-tuning-data indienen die is ontworpen om veiligheidsbeperkingen uit te hollen
Cross-tenant-besmetting: Als de infrastructuur van de aanbieder tenants niet goed isoleert, kan de fine-tuning van de ene klant het model van een andere beïnvloeden

Onvoldoende datafiltering: De veiligheidsfilters van de aanbieder vangen geavanceerde vergiftiging mogelijk niet op
Evaluatielacunes: Gefinetunede modellen ondergaan mogelijk onvoldoende veiligheidsevaluatie vóór uitrol
Adapterhergebruik: Als de aanbieder adaptercomponenten cachet of hergebruikt tussen klanten, kan vergiftiging zich verspreiden

Verdedigingsstrategieën

Datakwaliteitspoorten
Implementeer geautomatiseerde en menselijke review van fine-tuning-data vóór de training. Filter op bekende aanvalspatronen, afwijkende instructies en lacunes in veiligheidsrelevante inhoud.
Veiligheidsevaluatie na fine-tuning
Voer na elke fine-tuning-run een uitgebreide veiligheidsbenchmark uit. Vergelijk met het veiligheidsprofiel van het basismodel. Markeer significante regressies.
Herkomsttracering van adapters
Verifieer de bron, trainingsdata en het gedragsprofiel van elke adapter voordat je hem laadt. Behandel niet-vertrouwde adapters als niet-vertrouwde code.
Toegangscontrole voor fine-tuning
Beperk wie productiemodellen mag fine-tunen. Vereis goedkeuring voor fine-tuning-runs en audit alle indieningen van trainingsdata.

Gerelateerde onderwerpen

SFT-datavergiftiging -- Gedetailleerde SFT-vergiftigingsmethodologie
Aanvalsoppervlak van RLHF -- Reward-model- en voorkeursmanipulatie
LoRA- & adapter-aanvallen -- Toeleveringsketenrisico's van adapters
Aanvalsoppervlak van pre-training -- Hoe compromitteringen tijdens pre-training doorwerken in fine-tuning
Trainings- & fine-tuning-aanvallen -- Breder overzicht van trainingsaanvallen

Knowledge Check

Waarom kan fine-tunen op onschuldige (niet-schadelijke) data de veiligheidstraining van een model toch compromitteren?

References

Fine-Tuning Aligned Language Models Compromises Safety (Qi et al., 2023) -- Safety removal through fine-tuning
Shadow Alignment: The Ease of Subverting Safety-Aligned Language Models (Yang et al., 2023) -- Minimal-data safety removal
LoRA Fine-Tuning Efficiently Undoes Safety Training (Lermen et al., 2023) -- LoRA-based safety removal

Aanvalsoppervlak van fine-tuning

Gevorderd7 min lezenBijgewerkt op 2026-03-13

Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.

fine-tuning attack-surface SFT RLHF alignment DPO safety-training

De fine-tuning-pijplijn

Supervised Fine-Tuning (SFT)
Het model wordt getraind op zorgvuldig samengestelde instructie-responsparen om het gewenste interactieformaat te leren. Dit is het meest directe pad voor datavergiftiging. Zie SFT-datavergiftiging.
Reward Modeling
Een reward-model wordt getraind op menselijke voorkeursdata (paarsgewijze vergelijkingen van responses). Het manipuleren van deze voorkeursdata kan veranderen waarvoor het model optimaliseert. Zie Aanvalsoppervlak van RLHF.
Reinforcement Learning (RLHF/PPO)
Het model wordt geoptimaliseerd om de score van het reward-model te maximaliseren. Dit creëert kansen voor reward hacking, waarbij het model gedrag met hoge reward vindt dat de bedoelde doelstelling schendt. Zie Reward Hacking.
Directe alignment (DPO/KTO)
Alternatief voor RLHF dat rechtstreeks optimaliseert op voorkeursparen zonder een apart reward-model. Ander aanvalsoppervlak, maar vergelijkbare kwetsbaarheid voor datavergiftiging. Zie DPO-alignment-aanvallen.
Veiligheidstraining (Constitutional AI)
Zelfkritiek en op principes gestuurde revisie, die kan worden aangevallen door de principes zelf te manipuleren. Zie Constitutional AI Hacking.

Aanvalstaxonomie

Per fine-tuning-fase

Fase	Aanvalsvector	Moeilijkheid	Persistentie
SFT-data	Vergiftigde instructie-responsparen	Laag	Hoog -- direct in de gewichten
Voorkeursdata	Gemanipuleerde vergelijkingslabels	Gemiddeld	Hoog -- vormt het reward-model
Reward-model	Reward hacking, specification gaming	Gemiddeld	Gemiddeld -- kan opnieuw worden getraind
RL-optimalisatie	Misbruik van fouten in het reward-model	Laag (voor het model)	Gemiddeld
Constitutional AI	Principe-injectie, manipulatie van zelfkritiek	Hoog	Hoog -- vormt de waarden van het model
Adapterlagen	Schadelijke LoRA/QLoRA-adapters	Laag	Hoog -- draagbare compromittering

Per toegangsniveau van de aanvaller

Toegangsniveau	Beschikbare aanvallen	Voorbeeldscenario
Databijdrager	SFT-datavergiftiging, voorkeursmanipulatie	Bijdragen aan open instructiedatasets
Annotator	RLHF-voorkeursmanipulatie, facilitering van reward hacking	Gecrowdsourcete annotatiewerkkracht
Gebruiker van fine-tuning-API	Indirecte SFT-vergiftiging via de API	Gebruik van fine-tuning-endpoints van OpenAI/Anthropic
Adapteruitgever	Distributie van schadelijke LoRA	Publiceren op Hugging Face Hub
Operator van de trainingspijplijn	Alle fine-tuning-aanvallen	Insider bij een AI-lab

De alignment tax

Hoe de alignment tax aanvallen mogelijk maakt

Pre-trained model (high capability, no safety)
    ↓ SFT + RLHF
Aligned model (reduced capability, safety constraints)
    ↓ User fine-tunes to "recover capability"
De-aligned model (capability recovered, safety removed)

Onderzoek heeft aangetoond dat veiligheidstraining ongedaan kan worden gemaakt met opmerkelijk weinig fine-tuning:

Methode	Vereiste data	Vereiste rekenkracht	Verwijdering van veiligheid
Schadelijke SFT-voorbeelden	10-100 voorbeelden	Minuten op 1 GPU	Vrijwel volledig
Identiteitsverschuivende SFT	50-200 voorbeelden	Minuten op 1 GPU	Substantieel
LoRA op schadelijke data	100-500 voorbeelden	Minuten op 1 GPU	Vrijwel volledig
Onschuldig ogende SFT (geen expliciete schade)	100-1000 voorbeelden	Uren op 1 GPU	Gedeeltelijk maar significant

Cross-methode-kwetsbaarheidsvergelijking

Methode	Bestendigheid tegen datavergiftiging	Risico op reward hacking	Alignment-robuustheid	Rekenkost
Alleen SFT	Laag -- leert rechtstreeks van data	N.v.t.	Laag -- eenvoudig weg te fine-tunen	Laag
RLHF (PPO)	Gemiddeld -- reward-model filtert wat vergiftiging	Hoog -- modellen misbruiken het reward-signaal	Gemiddeld	Hoog
DPO	Gemiddeld -- voorkeursparen bieden enige redundantie	Laag -- geen apart reward-model	Gemiddeld	Gemiddeld
Constitutional AI	Hoger -- zelfkritiek vangt wat vergiftiging op	Laag	Hoger -- principes voegen een laag toe	Hoog
SFT + RLHF + CAI	Hoogst -- meerdere verdedigingslagen	Gemiddeld	Hoogst -- defense in depth	Zeer hoog

Risico's van fine-tuning-as-a-service

Cloud-fine-tuning-API's (OpenAI, Google, Anthropic) introduceren een apart dreigingsmodel waarbij de aanvaller een klant is:

Datavergiftiging via de API: Trainingsdata indienen die backdoor-triggers bevat via de fine-tuning-API
Verwijdering van veiligheid via de API: Fine-tuning-data indienen die is ontworpen om veiligheidsbeperkingen uit te hollen
Cross-tenant-besmetting: Als de infrastructuur van de aanbieder tenants niet goed isoleert, kan de fine-tuning van de ene klant het model van een andere beïnvloeden

Onvoldoende datafiltering: De veiligheidsfilters van de aanbieder vangen geavanceerde vergiftiging mogelijk niet op
Evaluatielacunes: Gefinetunede modellen ondergaan mogelijk onvoldoende veiligheidsevaluatie vóór uitrol
Adapterhergebruik: Als de aanbieder adaptercomponenten cachet of hergebruikt tussen klanten, kan vergiftiging zich verspreiden

Verdedigingsstrategieën

Datakwaliteitspoorten
Implementeer geautomatiseerde en menselijke review van fine-tuning-data vóór de training. Filter op bekende aanvalspatronen, afwijkende instructies en lacunes in veiligheidsrelevante inhoud.
Veiligheidsevaluatie na fine-tuning
Voer na elke fine-tuning-run een uitgebreide veiligheidsbenchmark uit. Vergelijk met het veiligheidsprofiel van het basismodel. Markeer significante regressies.
Herkomsttracering van adapters
Verifieer de bron, trainingsdata en het gedragsprofiel van elke adapter voordat je hem laadt. Behandel niet-vertrouwde adapters als niet-vertrouwde code.
Toegangscontrole voor fine-tuning
Beperk wie productiemodellen mag fine-tunen. Vereis goedkeuring voor fine-tuning-runs en audit alle indieningen van trainingsdata.

Gerelateerde onderwerpen

SFT-datavergiftiging -- Gedetailleerde SFT-vergiftigingsmethodologie
Aanvalsoppervlak van RLHF -- Reward-model- en voorkeursmanipulatie
LoRA- & adapter-aanvallen -- Toeleveringsketenrisico's van adapters
Aanvalsoppervlak van pre-training -- Hoe compromitteringen tijdens pre-training doorwerken in fine-tuning
Trainings- & fine-tuning-aanvallen -- Breder overzicht van trainingsaanvallen

Knowledge Check

Waarom kan fine-tunen op onschuldige (niet-schadelijke) data de veiligheidstraining van een model toch compromitteren?

References

Fine-Tuning Aligned Language Models Compromises Safety (Qi et al., 2023) -- Safety removal through fine-tuning
Shadow Alignment: The Ease of Subverting Safety-Aligned Language Models (Yang et al., 2023) -- Minimal-data safety removal
LoRA Fine-Tuning Efficiently Undoes Safety Training (Lermen et al., 2023) -- LoRA-based safety removal

Aanvalsoppervlak van fine-tuning

Supervised Fine-Tuning (SFT)

Reward Modeling

Reinforcement Learning (RLHF/PPO)

Directe alignment (DPO/KTO)

Veiligheidstraining (Constitutional AI)

Datakwaliteitspoorten

Veiligheidsevaluatie na fine-tuning

Herkomsttracering van adapters

Toegangscontrole voor fine-tuning

Leerpad

Gerelateerde artikelen

Aanvalsoppervlak van fine-tuning

Supervised Fine-Tuning (SFT)

Reward Modeling

Reinforcement Learning (RLHF/PPO)

Directe alignment (DPO/KTO)

Veiligheidstraining (Constitutional AI)

Datakwaliteitspoorten

Veiligheidsevaluatie na fine-tuning

Herkomsttracering van adapters

Toegangscontrole voor fine-tuning

Leerpad

Gerelateerde artikelen