Geavanceerde aanvalsvectoren voor training
Geavanceerde trainingsaanvallen: vergiftiging van federated learning, exploits van model merging, kwetsbaarheden in distributed training, risico's van emergente capaciteiten en aanvallen op synthetische-datapipelines.
Standaard trainingsaanvallen -- datavergiftiging, backdoor-insertie, LoRA-trojans -- richten zich op de trainingsdata of het fine-tuningproces van één enkel model. Geavanceerde trainingsaanvallen buiten het gedistribueerde, samenwerkende en compositionele karakter van moderne modelontwikkeling uit. Federated learning deelt gradiënten over niet-vertrouwde deelnemers. Model merging combineert gewichten van onafhankelijk getrainde modellen. Distributed training stelt gradiëntcommunicatiekanalen bloot. Deze samenwerkende workflows vergroten het aanvalsoppervlak tijdens de training dramatisch.
Taxonomie van geavanceerde aanvallen
| Aanvalscategorie | Vereiste toegang | Persistentie | Detectiemoeilijkheid |
|---|---|---|---|
| Vergiftiging van federated learning | Deelnemer aan federated training | Hoog -- ingebed in het globale model | Moeilijk -- gemaskeerd door aggregatie |
| Exploits van model merging | Model publiceren in een openbaar register | Hoog -- blijft bestaan in gemergede gewichten | Zeer moeilijk -- onschuldig in isolatie |
| Aanvallen op distributed training | Toegang tot trainingsinfrastructuur | Hoog -- in het uiteindelijke checkpoint | Gemiddeld -- netwerkmonitoring |
| Uitbuiting van emergentie | Toegang tot modelevaluatie | N.v.t. -- test bestaande eigenschappen | Moeilijk -- emergent per definitie |
| Vergiftiging van synthetische data | Controle over de synthetische-datagenerator | Hoog -- gecodeerd in de trainingsdata | Moeilijk -- data lijkt schoon |
| Watermerkverwijdering | Modeltoegang (gewichten of API) | Permanent -- verwijdert herkomst | Gemiddeld -- statistische detectie |
Het aanvalsoppervlak van samenwerkende training
Federated learning
Federated learning is ontworpen voor privacybeschermende samenwerkende training. Dezelfde eigenschappen die de dataprivacy beschermen -- deelnemers delen nooit ruwe data -- beschermen ook kwaadwillende deelnemers tegen controle:
- Byzantijnse aanvallen -- Kwaadwillende deelnemers sturen vervaardigde gradiëntupdates die het globale model vergiftigen
- Modelvervanging -- Eén enkele deelnemer kan het globale model overschrijven door zijn update te schalen
- Ontwijking van free-rider-detectie -- Aanvallers kunnen meeliften op het werk van legitieme deelnemers
Zie Vergiftiging van federated learning voor volledige behandeling.
Model merging
Model merging creëert emergente gedragingen uit afzonderlijk onschuldige componenten. Dit is fundamenteel anders dan traditionele supply chain-aanvallen, omdat geen enkele component kwaadaardig is:
- Compositionele backdoors -- Twee schone modellen produceren een gebackdoord model wanneer ze worden gemerged
- Veiligheidserosie -- Het mergen van een veiligheids-aligned model met een ongecensureerd model degradeert de alignment
- Gerichte gewichtsmanipulatie -- Adversariële gewichten berekend om gewenst gedrag te produceren bij een specifieke merge-verhouding
Zie Exploits van model merging voor volledige behandeling.
Distributed training
Multi-node, multi-GPU-training stelt gradiëntcommunicatie en parametersynchronisatie bloot:
- Gradiëntonderschepping -- Man-in-the-middle-aanvallen op inter-node gradiëntcommunicatie
- Parameterserveraanvallen -- Compromittering van de centrale parameteraggregatie-node
- Insiderdreigingen -- Kwaadwillende beheerders met toegang tot de trainingsinfrastructuur
Zie Aanvalsoppervlak van distributed training voor volledige behandeling.
Categorieën van emergent risico
Naast opzettelijke aanvallen creëert geavanceerde training onbedoelde beveiligingsrisico's:
Modellen ontwikkelen op grote schaal onvoorspelbare capaciteiten -- vermogens die niet zijn ontworpen, getest of voorzien. Deze emergente capaciteiten kunnen gevaarlijke kennissynthese, misleidend redeneren of tool-use-vermogens omvatten die veiligheids-guardrails omzeilen. Zie Uitbuiting van emergentie en capaciteitssprongen.
Trainen op synthetische data die door andere modellen is gegenereerd, creëert feedbackloops die modelinstorting kunnen veroorzaken -- catastrofaal verlies van zeldzame kennis en distributiediversiteit. Aanvallers kunnen deze instorting versnellen of als wapen inzetten. Zie Aanvallen op synthetische-datapipelines.
Watermerkschema's voor AI die zijn ontworpen om de herkomst van modellen te traceren, kunnen worden verslagen door parafrasering, tokensubstitutie en embedding-verstoring. Dit ondermijnt de verantwoordingsplicht en maakt niet-toegeschreven modeldiefstal mogelijk. Zie Technieken voor watermerkverwijdering.
Verdedigingsprioriteiten
Per aanvallerscapaciteit
| Aanvaller | Verdediging met hoogste prioriteit |
|---|---|
| Externe bijdrager aan federated learning | Byzantijns-robuuste aggregatie, reputatie van deelnemers |
| Modeluitgever op openbare registers | Anomaliedetectie op gewichtsniveau, veiligheidstesten van merges |
| Infrastructuur-insider | Netwerkencryptie, toegangscontroles, auditlogging |
| Concurrerende organisatie | Watermerken, modelfingerprinting, IP-bescherming |
| Onderzoeker die zoekt naar emergentie | Frameworks voor capaciteitsevaluatie, gesandboxt testen |
Onderzoeksgrens
Deze gebieden bevinden zich aan de voorhoede van ML-beveiligingsonderzoek:
- Formele verificatie van modelmerges -- Kunnen we bewijzen dat een merge-operatie veiligheidseigenschappen behoudt?
- Aantoonbaar robuuste federated aggregatie -- Aggregatieregels die Byzantijnse tolerantie tot een bekende fractie garanderen
- Voorspelling van emergentie -- Voorspellen wanneer schaal nieuwe capaciteiten zal produceren voordat ze verschijnen
- Herkomst van synthetische data -- Traceren welk model welke trainingsvoorbeelden heeft gegenereerd
- Cross-model gedragsforensiek -- Bepalen of het gedrag van een model afgeleid is van een ander model
Gerelateerde onderwerpen
- Trainings- en fine-tuningaanvallen -- Standaard aanvalsoppervlak voor training
- Vergiftiging van federated learning -- Byzantijnse aanvallen in FL
- Exploits van model merging -- Compositionele backdoors
- Aanvalsvectoren op modelarchitectuur -- Kwetsbaarheden op architectuurniveau
- Supply chain-beveiliging -- Risico's in de modelsupply chain
References
- "How to Backdoor Federated Learning" - Bagdasaryan et al. (2020) - Foundational work on model poisoning in federated learning settings
- "Model Merging in LLMs, MLLMs, and Beyond" - Yang et al. (2024) - Survey of model merging techniques and their security implications
- "Poisoning Web-Scale Training Datasets is Practical" - Carlini et al. (2024) - Demonstrates practical dataset poisoning in web-scale training pipelines
- "Scalable Extraction of Training Data from (Production) Language Models" - Nasr et al. (2023) - Training data extraction from production models revealing pipeline vulnerabilities
Wat onderscheidt geavanceerde trainingsaanvallen van standaard datavergiftiging?