Wat is Dataset Poisoning?

Technieken voor het vergiftigen van datasets op webschaal, waaronder Common Crawl en The Pile, aanvallen via databijdragen, SEO-achtige vergiftiging, het berekenen van vereiste vergiftigingspercentages, en incidenten uit de praktijk.

Wat is Tokenizer Manipulation?

BPE-trainingsdata aanvallen om de opbouw van het vocabulaire te beïnvloeden, speciale tokens invoegen, merge-regels manipuleren en aangepaste tokenizer-backdoors creëren.

Wat is Training Loop Attacks?

Aanvallen op het trainingsproces zelf, waaronder gradiëntmanipulatie, manipulatie van de verliesfunctie, aanvallen op het learning-rate-schema en compromittering van de trainingsinfrastructuur.

Wat is Checkpoint Attacks?

Kwetsbaarheden in checkpointbestandsformaten, modificatie-aanvallen op safetensors- en PyTorch-formaten, checkpointvergiftiging, opslagbeveiliging en supply-chain-implicaties.

Wat is Lab: Dataset Poisoning?

Praktisch lab dat datasetvergiftiging en fine-tuning demonstreert om gedragsverandering te tonen, met stapsgewijze Python-code, meting van de backdoor-trigger en troubleshooting-richtlijnen.

Aanvalsoppervlak van pre-training

Gevorderd8 min lezenBijgewerkt op 2026-03-13

Uitgebreid overzicht van beveiligingskwetsbaarheden bij pre-training, waaronder aanvalsvectoren voor dataverzameling, -opschoning, -deduplicatie en compromittering van datasets op webschaal.

pre-training attack-surface data-collection web-scraping dataset-security

Pre-training is de fundering van elk groot taalmodel. Een model dat getraind is op biljoenen tokens uit webcrawls, boeken en code-repositories erft welke biases, fouten of kwaadaardige content er ook in die data aanwezig is. Omdat pre-training rekenkundig duur is en zelden herhaald wordt, levert een succesvolle aanval in deze fase een persistente compromittering op die elke downstream applicatie treft.

De pre-trainingpipeline

Voordat we aanvallen onderzoeken, helpt het om de standaard pre-trainingpipeline te begrijpen en te zien waar elke fase risico introduceert.

Dataverzameling
Webcrawlers (Common Crawl, custom scrapers) verzamelen petabytes aan ruwe HTML. Pipelines voor databijdragen accepteren door de gemeenschap aangeleverde content. Elke bron is een potentieel injectiepunt.
Dataopschoning en -filtering
Deduplicatie, taalfiltering, kwaliteitsscoring en contentfiltering reduceren ruwe data tot een trainingsklaar corpus. Gebreken in deze filters creëren aanvalsoppervlak -- content die verwijderd zou moeten worden maar er toch doorheen komt.
Tokenisatie
Tekst wordt omgezet in tokenreeksen met behulp van een geleerde tokenizer (BPE, SentencePiece). De tokenizer zelf wordt op data getraind, wat hem tot een doelwit maakt. Zie Tokenizer-manipulatie.
Trainingslus
Gradient descent optimaliseert modelgewichten over het getokeniseerde corpus. De optimizer, het leersnelheidsschema en de loss-functie zijn allemaal configureerbaar -- en allemaal aanvalbaar met insidertoegang. Zie Kwetsbaarheden van de trainingslus.
Checkpointing en distributie
Modelgewichten worden periodiek opgeslagen en gedistribueerd naar downstream gebruikers. Checkpointformaten, opslag en verificatie (of het gebrek daaraan) creëren supply-chain-risico's. Zie Checkpoint-aanvallen.

Aanvaltaxonomie

Pre-training-aanvallen kunnen langs twee assen geclassificeerd worden: wat de aanvaller controleert en wat hij beoogt te bereiken.

Op basis van toegangsniveau van de aanvaller

Toegangsniveau	Beschrijving	Voorbeeldaanvallen	Moeilijkheid
Webcontent-bijdrager	Kan content publiceren die webcrawlers indexeren	SEO-achtige datavergiftiging, linkmanipulatie	Laag
Datasetbijdrager	Kan rechtstreeks data aanleveren aan publieke datasets	Directe datasetvergiftiging, labelmanipulatie	Laag-gemiddeld
Datapipeline-operator	Controleert opschoning, filtering of deduplicatie	Filteromzeiling, dedup-collision-aanvallen	Gemiddeld
Trainingsinfrastructuur	Toegang tot trainingsscripts, hyperparameters	Aanvallen op de trainingslus, loss-manipulatie	Hoog
Volledige trainingscontrole	End-to-end controle over het trainingsproces	Willekeurige backdoor-insertie	Zeer hoog

Op basis van aanvalsdoelstelling

Doelstelling	Beschrijving	Persistentie
Gedragsbias	Verschuif modeluitvoer richting een specifiek standpunt of gedrag	Hoog -- ingebed in gewichten
Backdoor-insertie	Creëer door triggers geactiveerde verborgen gedragingen	Zeer hoog -- overleeft fine-tuning
Capaciteitsdegradatie	Verminder modelprestaties op specifieke onderwerpen of taken	Hoog -- moeilijk te isoleren
Informatie-injectie	Bed valse feiten in als "kennis" die het model als waar behandelt	Gemiddeld -- kan door fine-tuning worden overschreven
Compromittering van de supply chain	Distribueer vergiftigde checkpoints naar downstream gebruikers	Zeer hoog -- treft alle gebruikers

Kwetsbaarheden bij dataverzameling

Vergiftiging van webcrawls

Common Crawl verwerkt meer dan 3 miljard webpagina's per maandelijkse crawl. Een aanvaller die zelfs een klein aantal domeinen met hoge autoriteit controleert, kan content injecteren die wordt opgenomen in trainingsdatasets die door grote modelontwikkelaars worden gebruikt.

Aanvalsvectoren zijn onder andere:

Domeinaankoop: Verwerf verlopen domeinen met hoge autoriteit en vul ze met vergiftigde content
SEO-manipulatie: Optimaliseer vergiftigde pagina's om hoog te ranken en vaker gecrawld te worden
Content-injectie: Compromitteer bestaande sites met hoge autoriteit (CMS-kwetsbaarheden, supply-chain-aanvallen) om content te injecteren
Temporele aanvallen: Publiceer vergiftigde content vlak vóór bekende crawlvensters en verwijder deze daarna weer

# Schatting van vergiftigingspercentages voor datasets op webschaal
total_tokens_common_crawl = 3_000_000_000_000  # ~3T tokens per crawl
attacker_controlled_pages = 10_000
avg_tokens_per_page = 2_000
attacker_tokens = attacker_controlled_pages * avg_tokens_per_page  # 20M tokens
 
poison_rate = attacker_tokens / total_tokens_common_crawl
# poison_rate ~ 0.000007 (0.0007%)
# Lijkt klein, maar gerichte vergiftiging van specifieke onderwerpen
# kan veel hogere lokale vergiftigingspercentages bereiken

Aanvallen via databijdragen

Veel datasets accepteren bijdragen vanuit de gemeenschap (The Pile, LAION, diverse instructie-datasets). Een aanvaller kan vergiftigde data rechtstreeks aanleveren via officiële bijdragekanalen.

Kwetsbaarheden bij dataopschoning en -deduplicatie

Filteromzeiling

Kwaliteitsfilters gebruiken doorgaans heuristieken: perplexity-scoring, taaldetectie, contentclassifiers. Elk kan worden omzeild:

Filtertype	Omzeilingstechniek
Perplexity-filter	Schrijf vergiftigde content in natuurlijk, vloeiend proza
Taalfilter	Gebruik code-switching of bed het gif in in de doeltaal
Contentclassifier	Gebruik indirecte taal die safety-filters passeert
Deduplicatie	Voeg kleine variaties toe aan elk vergiftigd document
URL-blocklist	Gebruik domeinen die niet op de blocklist staan

Deduplicatie-collision-aanvallen

Deduplicatie-algoritmen (MinHash, exacte substringmatching) kunnen worden uitgebuit. Een aanvaller kan documenten opstellen die botsen met legitieme documenten in de dedup-hashruimte, waardoor de legitieme versies worden verwijderd terwijl de vergiftigde versies blijven bestaan.

Downstream impact

Compromitteringen bij pre-training hebben een cascade-effect op alle downstream activiteiten:

Fine-tuning erft biases: Een model dat is voorgetraind op vergiftigde data draagt die biases over naar elke fine-getunede variant
Safety-training verwijdert backdoors mogelijk niet: Onderzoek naar sleeper agents toont aan dat RLHF en DPO er niet in kunnen slagen pre-training-backdoors te verwijderen (zie Aanvalsoppervlak van RLHF)
Schaal versterkt de impact: Eén enkele vergiftigde pre-trainingrun kan honderden downstream applicaties treffen
Detectie is duur: Gedragstesten moeten de volledige ruimte van mogelijke triggerpatronen dekken, die combinatorisch groot is

Verdedigingsoverzicht

Verdediging	Wat het onderschept	Beperkingen
Herkomstbijhouding van data	Onbetrouwbare bronnen, bijdrage-aanvallen	Voorkomt geen vergiftiging van webcrawls
Statistische anomaliedetectie	Ongebruikelijke tokenverdelingen, uitschietende documenten	Hoge false-positive-ratio op schaal
Canary-token-monitoring	Ongeautoriseerd datagebruik, compromittering van de pipeline	Detecteert alleen, voorkomt niet
Differentiële testen	Gedragsveranderingen tussen trainingsruns	Vereist een baseline en is duur
Federatieve dataverificatie	Multi-party-validatie van data-integriteit	Coördinatieoverhead, niet breed geadopteerd

Verwante onderwerpen

Datasetvergiftiging op schaal -- Gedetailleerde vergiftigingsmethodologie voor datasets op webschaal
Tokenizer-manipulatie -- Het aanvallen van het tokenizer-trainingsproces
Kwetsbaarheden van de trainingslus -- Insideraanvallen op het optimalisatieproces
Aanvalsoppervlak van fine-tuning -- Hoe compromitteringen bij pre-training zich voortplanten naar fine-tuning
Supply-chain-beveiliging -- Bredere context van supply-chain-risico's

Knowledge Check

Waarom worden pre-training-aanvallen beschouwd als aanvallen met een hogere hefboomwerking dan fine-tuning-aanvallen?

Referenties

Poisoning Web-Scale Training Datasets is Practical (Carlini et al., 2023) -- Practical web-scale poisoning demonstration
Data Poisoning Attacks Against Machine Learning (Goldblum et al., 2022) -- Survey of data poisoning methods
Poisoning Language Models During Instruction Tuning (Wan et al., 2023) -- Instruction-tuning poisoning

Aanvalsoppervlak van pre-training

Gevorderd8 min lezenBijgewerkt op 2026-03-13

Uitgebreid overzicht van beveiligingskwetsbaarheden bij pre-training, waaronder aanvalsvectoren voor dataverzameling, -opschoning, -deduplicatie en compromittering van datasets op webschaal.

pre-training attack-surface data-collection web-scraping dataset-security

De pre-trainingpipeline

Voordat we aanvallen onderzoeken, helpt het om de standaard pre-trainingpipeline te begrijpen en te zien waar elke fase risico introduceert.

Dataverzameling
Webcrawlers (Common Crawl, custom scrapers) verzamelen petabytes aan ruwe HTML. Pipelines voor databijdragen accepteren door de gemeenschap aangeleverde content. Elke bron is een potentieel injectiepunt.
Dataopschoning en -filtering
Deduplicatie, taalfiltering, kwaliteitsscoring en contentfiltering reduceren ruwe data tot een trainingsklaar corpus. Gebreken in deze filters creëren aanvalsoppervlak -- content die verwijderd zou moeten worden maar er toch doorheen komt.
Tokenisatie
Tekst wordt omgezet in tokenreeksen met behulp van een geleerde tokenizer (BPE, SentencePiece). De tokenizer zelf wordt op data getraind, wat hem tot een doelwit maakt. Zie Tokenizer-manipulatie.
Trainingslus
Gradient descent optimaliseert modelgewichten over het getokeniseerde corpus. De optimizer, het leersnelheidsschema en de loss-functie zijn allemaal configureerbaar -- en allemaal aanvalbaar met insidertoegang. Zie Kwetsbaarheden van de trainingslus.
Checkpointing en distributie
Modelgewichten worden periodiek opgeslagen en gedistribueerd naar downstream gebruikers. Checkpointformaten, opslag en verificatie (of het gebrek daaraan) creëren supply-chain-risico's. Zie Checkpoint-aanvallen.

Aanvaltaxonomie

Pre-training-aanvallen kunnen langs twee assen geclassificeerd worden: wat de aanvaller controleert en wat hij beoogt te bereiken.

Op basis van toegangsniveau van de aanvaller

Toegangsniveau	Beschrijving	Voorbeeldaanvallen	Moeilijkheid
Webcontent-bijdrager	Kan content publiceren die webcrawlers indexeren	SEO-achtige datavergiftiging, linkmanipulatie	Laag
Datasetbijdrager	Kan rechtstreeks data aanleveren aan publieke datasets	Directe datasetvergiftiging, labelmanipulatie	Laag-gemiddeld
Datapipeline-operator	Controleert opschoning, filtering of deduplicatie	Filteromzeiling, dedup-collision-aanvallen	Gemiddeld
Trainingsinfrastructuur	Toegang tot trainingsscripts, hyperparameters	Aanvallen op de trainingslus, loss-manipulatie	Hoog
Volledige trainingscontrole	End-to-end controle over het trainingsproces	Willekeurige backdoor-insertie	Zeer hoog

Op basis van aanvalsdoelstelling

Doelstelling	Beschrijving	Persistentie
Gedragsbias	Verschuif modeluitvoer richting een specifiek standpunt of gedrag	Hoog -- ingebed in gewichten
Backdoor-insertie	Creëer door triggers geactiveerde verborgen gedragingen	Zeer hoog -- overleeft fine-tuning
Capaciteitsdegradatie	Verminder modelprestaties op specifieke onderwerpen of taken	Hoog -- moeilijk te isoleren
Informatie-injectie	Bed valse feiten in als "kennis" die het model als waar behandelt	Gemiddeld -- kan door fine-tuning worden overschreven
Compromittering van de supply chain	Distribueer vergiftigde checkpoints naar downstream gebruikers	Zeer hoog -- treft alle gebruikers

Kwetsbaarheden bij dataverzameling

Vergiftiging van webcrawls

Aanvalsvectoren zijn onder andere:

Domeinaankoop: Verwerf verlopen domeinen met hoge autoriteit en vul ze met vergiftigde content
SEO-manipulatie: Optimaliseer vergiftigde pagina's om hoog te ranken en vaker gecrawld te worden
Content-injectie: Compromitteer bestaande sites met hoge autoriteit (CMS-kwetsbaarheden, supply-chain-aanvallen) om content te injecteren
Temporele aanvallen: Publiceer vergiftigde content vlak vóór bekende crawlvensters en verwijder deze daarna weer

# Schatting van vergiftigingspercentages voor datasets op webschaal
total_tokens_common_crawl = 3_000_000_000_000  # ~3T tokens per crawl
attacker_controlled_pages = 10_000
avg_tokens_per_page = 2_000
attacker_tokens = attacker_controlled_pages * avg_tokens_per_page  # 20M tokens
 
poison_rate = attacker_tokens / total_tokens_common_crawl
# poison_rate ~ 0.000007 (0.0007%)
# Lijkt klein, maar gerichte vergiftiging van specifieke onderwerpen
# kan veel hogere lokale vergiftigingspercentages bereiken

Filtertype	Omzeilingstechniek
Perplexity-filter	Schrijf vergiftigde content in natuurlijk, vloeiend proza
Taalfilter	Gebruik code-switching of bed het gif in in de doeltaal
Contentclassifier	Gebruik indirecte taal die safety-filters passeert
Deduplicatie	Voeg kleine variaties toe aan elk vergiftigd document
URL-blocklist	Gebruik domeinen die niet op de blocklist staan

Deduplicatie-collision-aanvallen

Downstream impact

Compromitteringen bij pre-training hebben een cascade-effect op alle downstream activiteiten:

Fine-tuning erft biases: Een model dat is voorgetraind op vergiftigde data draagt die biases over naar elke fine-getunede variant
Safety-training verwijdert backdoors mogelijk niet: Onderzoek naar sleeper agents toont aan dat RLHF en DPO er niet in kunnen slagen pre-training-backdoors te verwijderen (zie Aanvalsoppervlak van RLHF)
Schaal versterkt de impact: Eén enkele vergiftigde pre-trainingrun kan honderden downstream applicaties treffen
Detectie is duur: Gedragstesten moeten de volledige ruimte van mogelijke triggerpatronen dekken, die combinatorisch groot is

Verdedigingsoverzicht

Verdediging	Wat het onderschept	Beperkingen
Herkomstbijhouding van data	Onbetrouwbare bronnen, bijdrage-aanvallen	Voorkomt geen vergiftiging van webcrawls
Statistische anomaliedetectie	Ongebruikelijke tokenverdelingen, uitschietende documenten	Hoge false-positive-ratio op schaal
Canary-token-monitoring	Ongeautoriseerd datagebruik, compromittering van de pipeline	Detecteert alleen, voorkomt niet
Differentiële testen	Gedragsveranderingen tussen trainingsruns	Vereist een baseline en is duur
Federatieve dataverificatie	Multi-party-validatie van data-integriteit	Coördinatieoverhead, niet breed geadopteerd

Verwante onderwerpen

Datasetvergiftiging op schaal -- Gedetailleerde vergiftigingsmethodologie voor datasets op webschaal
Tokenizer-manipulatie -- Het aanvallen van het tokenizer-trainingsproces
Kwetsbaarheden van de trainingslus -- Insideraanvallen op het optimalisatieproces
Aanvalsoppervlak van fine-tuning -- Hoe compromitteringen bij pre-training zich voortplanten naar fine-tuning
Supply-chain-beveiliging -- Bredere context van supply-chain-risico's

Knowledge Check

Waarom worden pre-training-aanvallen beschouwd als aanvallen met een hogere hefboomwerking dan fine-tuning-aanvallen?

Referenties

Poisoning Web-Scale Training Datasets is Practical (Carlini et al., 2023) -- Practical web-scale poisoning demonstration
Data Poisoning Attacks Against Machine Learning (Goldblum et al., 2022) -- Survey of data poisoning methods
Poisoning Language Models During Instruction Tuning (Wan et al., 2023) -- Instruction-tuning poisoning

Aanvalsoppervlak van pre-training

Dataverzameling

Dataopschoning en -filtering

Tokenisatie

Trainingslus

Checkpointing en distributie

Leerpad

Gerelateerde artikelen

Aanvalsoppervlak van pre-training

Dataverzameling

Dataopschoning en -filtering

Tokenisatie

Trainingslus

Checkpointing en distributie

Leerpad

Gerelateerde artikelen