Aanvalsoppervlak van pre-training
Uitgebreid overzicht van beveiligingskwetsbaarheden bij pre-training, waaronder aanvalsvectoren voor dataverzameling, -opschoning, -deduplicatie en compromittering van datasets op webschaal.
Pre-training is de fundering van elk groot taalmodel. Een model dat getraind is op biljoenen tokens uit webcrawls, boeken en code-repositories erft welke biases, fouten of kwaadaardige content er ook in die data aanwezig is. Omdat pre-training rekenkundig duur is en zelden herhaald wordt, levert een succesvolle aanval in deze fase een persistente compromittering op die elke downstream applicatie treft.
De pre-trainingpipeline
Voordat we aanvallen onderzoeken, helpt het om de standaard pre-trainingpipeline te begrijpen en te zien waar elke fase risico introduceert.
Dataverzameling
Webcrawlers (Common Crawl, custom scrapers) verzamelen petabytes aan ruwe HTML. Pipelines voor databijdragen accepteren door de gemeenschap aangeleverde content. Elke bron is een potentieel injectiepunt.
Dataopschoning en -filtering
Deduplicatie, taalfiltering, kwaliteitsscoring en contentfiltering reduceren ruwe data tot een trainingsklaar corpus. Gebreken in deze filters creëren aanvalsoppervlak -- content die verwijderd zou moeten worden maar er toch doorheen komt.
Tokenisatie
Tekst wordt omgezet in tokenreeksen met behulp van een geleerde tokenizer (BPE, SentencePiece). De tokenizer zelf wordt op data getraind, wat hem tot een doelwit maakt. Zie Tokenizer-manipulatie.
Trainingslus
Gradient descent optimaliseert modelgewichten over het getokeniseerde corpus. De optimizer, het leersnelheidsschema en de loss-functie zijn allemaal configureerbaar -- en allemaal aanvalbaar met insidertoegang. Zie Kwetsbaarheden van de trainingslus.
Checkpointing en distributie
Modelgewichten worden periodiek opgeslagen en gedistribueerd naar downstream gebruikers. Checkpointformaten, opslag en verificatie (of het gebrek daaraan) creëren supply-chain-risico's. Zie Checkpoint-aanvallen.
Aanvaltaxonomie
Pre-training-aanvallen kunnen langs twee assen geclassificeerd worden: wat de aanvaller controleert en wat hij beoogt te bereiken.
Op basis van toegangsniveau van de aanvaller
| Toegangsniveau | Beschrijving | Voorbeeldaanvallen | Moeilijkheid |
|---|---|---|---|
| Webcontent-bijdrager | Kan content publiceren die webcrawlers indexeren | SEO-achtige datavergiftiging, linkmanipulatie | Laag |
| Datasetbijdrager | Kan rechtstreeks data aanleveren aan publieke datasets | Directe datasetvergiftiging, labelmanipulatie | Laag-gemiddeld |
| Datapipeline-operator | Controleert opschoning, filtering of deduplicatie | Filteromzeiling, dedup-collision-aanvallen | Gemiddeld |
| Trainingsinfrastructuur | Toegang tot trainingsscripts, hyperparameters | Aanvallen op de trainingslus, loss-manipulatie | Hoog |
| Volledige trainingscontrole | End-to-end controle over het trainingsproces | Willekeurige backdoor-insertie | Zeer hoog |
Op basis van aanvalsdoelstelling
| Doelstelling | Beschrijving | Persistentie |
|---|---|---|
| Gedragsbias | Verschuif modeluitvoer richting een specifiek standpunt of gedrag | Hoog -- ingebed in gewichten |
| Backdoor-insertie | Creëer door triggers geactiveerde verborgen gedragingen | Zeer hoog -- overleeft fine-tuning |
| Capaciteitsdegradatie | Verminder modelprestaties op specifieke onderwerpen of taken | Hoog -- moeilijk te isoleren |
| Informatie-injectie | Bed valse feiten in als "kennis" die het model als waar behandelt | Gemiddeld -- kan door fine-tuning worden overschreven |
| Compromittering van de supply chain | Distribueer vergiftigde checkpoints naar downstream gebruikers | Zeer hoog -- treft alle gebruikers |
Kwetsbaarheden bij dataverzameling
Vergiftiging van webcrawls
Common Crawl verwerkt meer dan 3 miljard webpagina's per maandelijkse crawl. Een aanvaller die zelfs een klein aantal domeinen met hoge autoriteit controleert, kan content injecteren die wordt opgenomen in trainingsdatasets die door grote modelontwikkelaars worden gebruikt.
Aanvalsvectoren zijn onder andere:
- Domeinaankoop: Verwerf verlopen domeinen met hoge autoriteit en vul ze met vergiftigde content
- SEO-manipulatie: Optimaliseer vergiftigde pagina's om hoog te ranken en vaker gecrawld te worden
- Content-injectie: Compromitteer bestaande sites met hoge autoriteit (CMS-kwetsbaarheden, supply-chain-aanvallen) om content te injecteren
- Temporele aanvallen: Publiceer vergiftigde content vlak vóór bekende crawlvensters en verwijder deze daarna weer
# Schatting van vergiftigingspercentages voor datasets op webschaal
total_tokens_common_crawl = 3_000_000_000_000 # ~3T tokens per crawl
attacker_controlled_pages = 10_000
avg_tokens_per_page = 2_000
attacker_tokens = attacker_controlled_pages * avg_tokens_per_page # 20M tokens
poison_rate = attacker_tokens / total_tokens_common_crawl
# poison_rate ~ 0.000007 (0.0007%)
# Lijkt klein, maar gerichte vergiftiging van specifieke onderwerpen
# kan veel hogere lokale vergiftigingspercentages bereikenAanvallen via databijdragen
Veel datasets accepteren bijdragen vanuit de gemeenschap (The Pile, LAION, diverse instructie-datasets). Een aanvaller kan vergiftigde data rechtstreeks aanleveren via officiële bijdragekanalen.
Kwetsbaarheden bij dataopschoning en -deduplicatie
Filteromzeiling
Kwaliteitsfilters gebruiken doorgaans heuristieken: perplexity-scoring, taaldetectie, contentclassifiers. Elk kan worden omzeild:
| Filtertype | Omzeilingstechniek |
|---|---|
| Perplexity-filter | Schrijf vergiftigde content in natuurlijk, vloeiend proza |
| Taalfilter | Gebruik code-switching of bed het gif in in de doeltaal |
| Contentclassifier | Gebruik indirecte taal die safety-filters passeert |
| Deduplicatie | Voeg kleine variaties toe aan elk vergiftigd document |
| URL-blocklist | Gebruik domeinen die niet op de blocklist staan |
Deduplicatie-collision-aanvallen
Deduplicatie-algoritmen (MinHash, exacte substringmatching) kunnen worden uitgebuit. Een aanvaller kan documenten opstellen die botsen met legitieme documenten in de dedup-hashruimte, waardoor de legitieme versies worden verwijderd terwijl de vergiftigde versies blijven bestaan.
Downstream impact
Compromitteringen bij pre-training hebben een cascade-effect op alle downstream activiteiten:
- Fine-tuning erft biases: Een model dat is voorgetraind op vergiftigde data draagt die biases over naar elke fine-getunede variant
- Safety-training verwijdert backdoors mogelijk niet: Onderzoek naar sleeper agents toont aan dat RLHF en DPO er niet in kunnen slagen pre-training-backdoors te verwijderen (zie Aanvalsoppervlak van RLHF)
- Schaal versterkt de impact: Eén enkele vergiftigde pre-trainingrun kan honderden downstream applicaties treffen
- Detectie is duur: Gedragstesten moeten de volledige ruimte van mogelijke triggerpatronen dekken, die combinatorisch groot is
Verdedigingsoverzicht
| Verdediging | Wat het onderschept | Beperkingen |
|---|---|---|
| Herkomstbijhouding van data | Onbetrouwbare bronnen, bijdrage-aanvallen | Voorkomt geen vergiftiging van webcrawls |
| Statistische anomaliedetectie | Ongebruikelijke tokenverdelingen, uitschietende documenten | Hoge false-positive-ratio op schaal |
| Canary-token-monitoring | Ongeautoriseerd datagebruik, compromittering van de pipeline | Detecteert alleen, voorkomt niet |
| Differentiële testen | Gedragsveranderingen tussen trainingsruns | Vereist een baseline en is duur |
| Federatieve dataverificatie | Multi-party-validatie van data-integriteit | Coördinatieoverhead, niet breed geadopteerd |
Verwante onderwerpen
- Datasetvergiftiging op schaal -- Gedetailleerde vergiftigingsmethodologie voor datasets op webschaal
- Tokenizer-manipulatie -- Het aanvallen van het tokenizer-trainingsproces
- Kwetsbaarheden van de trainingslus -- Insideraanvallen op het optimalisatieproces
- Aanvalsoppervlak van fine-tuning -- Hoe compromitteringen bij pre-training zich voortplanten naar fine-tuning
- Supply-chain-beveiliging -- Bredere context van supply-chain-risico's
Waarom worden pre-training-aanvallen beschouwd als aanvallen met een hogere hefboomwerking dan fine-tuning-aanvallen?
Referenties
- Poisoning Web-Scale Training Datasets is Practical (Carlini et al., 2023) -- Practical web-scale poisoning demonstration
- Data Poisoning Attacks Against Machine Learning (Goldblum et al., 2022) -- Survey of data poisoning methods
- Poisoning Language Models During Instruction Tuning (Wan et al., 2023) -- Instruction-tuning poisoning