Wat is Federated Learning Poisoning?

Architecturale kwetsbaarheden van federated learning: Byzantijnse aanvallen, modelvervanging, gradiëntmanipulatie en technieken om globale modellen te vergiftigen via kwaadwillende deelnemers.

Wat is Model Merging Exploits?

Het uitbuiten van model merging-technieken (TIES, DARE, lineaire interpolatie) en LoRA-compositie om backdoors te introduceren via afzonderlijk onschuldige modelcomponenten.

Wat is Distributed Training?

Beveiligingskwetsbaarheden in multi-GPU, multi-node LLM-training: aanvallen op gradiëntdeling, compromittering van parameterservers, insiderdreigingen en trainingsexploits op infrastructuurniveau.

Wat is Emergence Exploitation?

Hoe emergente capaciteiten onvoorspelbare beveiligingseigenschappen creëren: testen op verborgen capaciteiten, sleeper agent-scenario's, zorgen over deceptive alignment en capaciteitselicitatie.

Wat is Synthetic Data Attacks?

Aanvallen op pipelines voor het genereren van synthetische data: modelinstorting door synthetische feedbackloops, vergiftiging van synthetische-datageneratoren, omzeiling van kwaliteitscontrole en aanvallen op dataherkomst.

Wat is Watermark Removal?

Technieken voor het verwijderen van AI-watermerken: parafraseringsaanvallen, tokensubstitutie, verstoring van de embedding-ruimte, en implicaties voor modelherkomst en verantwoordingsplicht.

Wat is Lab: Federated Learning?

Praktisch lab dat modelvergiftigingsaanvallen implementeert in een gesimuleerde federated learning-opzet met het Flower-framework: Byzantijnse aanvallen, modelvervanging en het meten van aanvalsimpact.

Wat is Machine Unlearning Attacks?

Het uitbuiten van machine unlearning-processen: het herstellen van zogenaamd vergeten data, aanvallen op unlearning-verificatie, uitbuiting van gedeeltelijke unlearning, en de fundamentele grenzen van vergeten in neurale netwerken.

Wat is Synthetic Data Risks?

Modelinstorting door trainen op synthetische data, kwaliteitsdegradatie over generaties, distributievernauwing, uitwissing van minderheden, en strategieën voor veilig gebruik van synthetische data in LLM-training.

Wat is Continual Learning Security?

Beveiligingsrisico's in continual learning-systemen: uitbuiting van catastrophic forgetting, taakinterferentie-aanvallen, vergiftiging van replay-buffers en manipulatie van stabiliteit-plasticiteit.

Geavanceerde aanvalsvectoren voor training

Expert7 min lezenBijgewerkt op 2026-03-13

Geavanceerde trainingsaanvallen: vergiftiging van federated learning, exploits van model merging, kwetsbaarheden in distributed training, risico's van emergente capaciteiten en aanvallen op synthetische-datapipelines.

advanced federated-learning model-merging distributed-training emergence synthetic-data training-security

Standaard trainingsaanvallen -- datavergiftiging, backdoor-insertie, LoRA-trojans -- richten zich op de trainingsdata of het fine-tuningproces van één enkel model. Geavanceerde trainingsaanvallen buiten het gedistribueerde, samenwerkende en compositionele karakter van moderne modelontwikkeling uit. Federated learning deelt gradiënten over niet-vertrouwde deelnemers. Model merging combineert gewichten van onafhankelijk getrainde modellen. Distributed training stelt gradiëntcommunicatiekanalen bloot. Deze samenwerkende workflows vergroten het aanvalsoppervlak tijdens de training dramatisch.

Taxonomie van geavanceerde aanvallen

Aanvalscategorie	Vereiste toegang	Persistentie	Detectiemoeilijkheid
Vergiftiging van federated learning	Deelnemer aan federated training	Hoog -- ingebed in het globale model	Moeilijk -- gemaskeerd door aggregatie
Exploits van model merging	Model publiceren in een openbaar register	Hoog -- blijft bestaan in gemergede gewichten	Zeer moeilijk -- onschuldig in isolatie
Aanvallen op distributed training	Toegang tot trainingsinfrastructuur	Hoog -- in het uiteindelijke checkpoint	Gemiddeld -- netwerkmonitoring
Uitbuiting van emergentie	Toegang tot modelevaluatie	N.v.t. -- test bestaande eigenschappen	Moeilijk -- emergent per definitie
Vergiftiging van synthetische data	Controle over de synthetische-datagenerator	Hoog -- gecodeerd in de trainingsdata	Moeilijk -- data lijkt schoon
Watermerkverwijdering	Modeltoegang (gewichten of API)	Permanent -- verwijdert herkomst	Gemiddeld -- statistische detectie

Het aanvalsoppervlak van samenwerkende training

Federated learning

Federated learning is ontworpen voor privacybeschermende samenwerkende training. Dezelfde eigenschappen die de dataprivacy beschermen -- deelnemers delen nooit ruwe data -- beschermen ook kwaadwillende deelnemers tegen controle:

Byzantijnse aanvallen -- Kwaadwillende deelnemers sturen vervaardigde gradiëntupdates die het globale model vergiftigen
Modelvervanging -- Eén enkele deelnemer kan het globale model overschrijven door zijn update te schalen
Ontwijking van free-rider-detectie -- Aanvallers kunnen meeliften op het werk van legitieme deelnemers

Zie Vergiftiging van federated learning voor volledige behandeling.

Model merging

Model merging creëert emergente gedragingen uit afzonderlijk onschuldige componenten. Dit is fundamenteel anders dan traditionele supply chain-aanvallen, omdat geen enkele component kwaadaardig is:

Compositionele backdoors -- Twee schone modellen produceren een gebackdoord model wanneer ze worden gemerged
Veiligheidserosie -- Het mergen van een veiligheids-aligned model met een ongecensureerd model degradeert de alignment
Gerichte gewichtsmanipulatie -- Adversariële gewichten berekend om gewenst gedrag te produceren bij een specifieke merge-verhouding

Zie Exploits van model merging voor volledige behandeling.

Distributed training

Multi-node, multi-GPU-training stelt gradiëntcommunicatie en parametersynchronisatie bloot:

Gradiëntonderschepping -- Man-in-the-middle-aanvallen op inter-node gradiëntcommunicatie
Parameterserveraanvallen -- Compromittering van de centrale parameteraggregatie-node
Insiderdreigingen -- Kwaadwillende beheerders met toegang tot de trainingsinfrastructuur

Zie Aanvalsoppervlak van distributed training voor volledige behandeling.

Categorieën van emergent risico

Naast opzettelijke aanvallen creëert geavanceerde training onbedoelde beveiligingsrisico's:

Modellen ontwikkelen op grote schaal onvoorspelbare capaciteiten -- vermogens die niet zijn ontworpen, getest of voorzien. Deze emergente capaciteiten kunnen gevaarlijke kennissynthese, misleidend redeneren of tool-use-vermogens omvatten die veiligheids-guardrails omzeilen. Zie Uitbuiting van emergentie en capaciteitssprongen.

Trainen op synthetische data die door andere modellen is gegenereerd, creëert feedbackloops die modelinstorting kunnen veroorzaken -- catastrofaal verlies van zeldzame kennis en distributiediversiteit. Aanvallers kunnen deze instorting versnellen of als wapen inzetten. Zie Aanvallen op synthetische-datapipelines.

Watermerkschema's voor AI die zijn ontworpen om de herkomst van modellen te traceren, kunnen worden verslagen door parafrasering, tokensubstitutie en embedding-verstoring. Dit ondermijnt de verantwoordingsplicht en maakt niet-toegeschreven modeldiefstal mogelijk. Zie Technieken voor watermerkverwijdering.

Verdedigingsprioriteiten

Per aanvallerscapaciteit

Aanvaller	Verdediging met hoogste prioriteit
Externe bijdrager aan federated learning	Byzantijns-robuuste aggregatie, reputatie van deelnemers
Modeluitgever op openbare registers	Anomaliedetectie op gewichtsniveau, veiligheidstesten van merges
Infrastructuur-insider	Netwerkencryptie, toegangscontroles, auditlogging
Concurrerende organisatie	Watermerken, modelfingerprinting, IP-bescherming
Onderzoeker die zoekt naar emergentie	Frameworks voor capaciteitsevaluatie, gesandboxt testen

Onderzoeksgrens

Deze gebieden bevinden zich aan de voorhoede van ML-beveiligingsonderzoek:

Formele verificatie van modelmerges -- Kunnen we bewijzen dat een merge-operatie veiligheidseigenschappen behoudt?
Aantoonbaar robuuste federated aggregatie -- Aggregatieregels die Byzantijnse tolerantie tot een bekende fractie garanderen
Voorspelling van emergentie -- Voorspellen wanneer schaal nieuwe capaciteiten zal produceren voordat ze verschijnen
Herkomst van synthetische data -- Traceren welk model welke trainingsvoorbeelden heeft gegenereerd
Cross-model gedragsforensiek -- Bepalen of het gedrag van een model afgeleid is van een ander model

Gerelateerde onderwerpen

Trainings- en fine-tuningaanvallen -- Standaard aanvalsoppervlak voor training
Vergiftiging van federated learning -- Byzantijnse aanvallen in FL
Exploits van model merging -- Compositionele backdoors
Aanvalsvectoren op modelarchitectuur -- Kwetsbaarheden op architectuurniveau
Supply chain-beveiliging -- Risico's in de modelsupply chain

References

"How to Backdoor Federated Learning" - Bagdasaryan et al. (2020) - Foundational work on model poisoning in federated learning settings
"Model Merging in LLMs, MLLMs, and Beyond" - Yang et al. (2024) - Survey of model merging techniques and their security implications
"Poisoning Web-Scale Training Datasets is Practical" - Carlini et al. (2024) - Demonstrates practical dataset poisoning in web-scale training pipelines
"Scalable Extraction of Training Data from (Production) Language Models" - Nasr et al. (2023) - Training data extraction from production models revealing pipeline vulnerabilities

Knowledge Check

Wat onderscheidt geavanceerde trainingsaanvallen van standaard datavergiftiging?

Geavanceerde aanvalsvectoren voor training

Expert7 min lezenBijgewerkt op 2026-03-13

advanced federated-learning model-merging distributed-training emergence synthetic-data training-security

Taxonomie van geavanceerde aanvallen

Aanvalscategorie	Vereiste toegang	Persistentie	Detectiemoeilijkheid
Vergiftiging van federated learning	Deelnemer aan federated training	Hoog -- ingebed in het globale model	Moeilijk -- gemaskeerd door aggregatie
Exploits van model merging	Model publiceren in een openbaar register	Hoog -- blijft bestaan in gemergede gewichten	Zeer moeilijk -- onschuldig in isolatie
Aanvallen op distributed training	Toegang tot trainingsinfrastructuur	Hoog -- in het uiteindelijke checkpoint	Gemiddeld -- netwerkmonitoring
Uitbuiting van emergentie	Toegang tot modelevaluatie	N.v.t. -- test bestaande eigenschappen	Moeilijk -- emergent per definitie
Vergiftiging van synthetische data	Controle over de synthetische-datagenerator	Hoog -- gecodeerd in de trainingsdata	Moeilijk -- data lijkt schoon
Watermerkverwijdering	Modeltoegang (gewichten of API)	Permanent -- verwijdert herkomst	Gemiddeld -- statistische detectie

Het aanvalsoppervlak van samenwerkende training

Federated learning

Byzantijnse aanvallen -- Kwaadwillende deelnemers sturen vervaardigde gradiëntupdates die het globale model vergiftigen
Modelvervanging -- Eén enkele deelnemer kan het globale model overschrijven door zijn update te schalen
Ontwijking van free-rider-detectie -- Aanvallers kunnen meeliften op het werk van legitieme deelnemers

Zie Vergiftiging van federated learning voor volledige behandeling.

Model merging

Model merging creëert emergente gedragingen uit afzonderlijk onschuldige componenten. Dit is fundamenteel anders dan traditionele supply chain-aanvallen, omdat geen enkele component kwaadaardig is:

Compositionele backdoors -- Twee schone modellen produceren een gebackdoord model wanneer ze worden gemerged
Veiligheidserosie -- Het mergen van een veiligheids-aligned model met een ongecensureerd model degradeert de alignment
Gerichte gewichtsmanipulatie -- Adversariële gewichten berekend om gewenst gedrag te produceren bij een specifieke merge-verhouding

Zie Exploits van model merging voor volledige behandeling.

Distributed training

Multi-node, multi-GPU-training stelt gradiëntcommunicatie en parametersynchronisatie bloot:

Gradiëntonderschepping -- Man-in-the-middle-aanvallen op inter-node gradiëntcommunicatie
Parameterserveraanvallen -- Compromittering van de centrale parameteraggregatie-node
Insiderdreigingen -- Kwaadwillende beheerders met toegang tot de trainingsinfrastructuur

Zie Aanvalsoppervlak van distributed training voor volledige behandeling.

Aanvaller	Verdediging met hoogste prioriteit
Externe bijdrager aan federated learning	Byzantijns-robuuste aggregatie, reputatie van deelnemers
Modeluitgever op openbare registers	Anomaliedetectie op gewichtsniveau, veiligheidstesten van merges
Infrastructuur-insider	Netwerkencryptie, toegangscontroles, auditlogging
Concurrerende organisatie	Watermerken, modelfingerprinting, IP-bescherming
Onderzoeker die zoekt naar emergentie	Frameworks voor capaciteitsevaluatie, gesandboxt testen

Onderzoeksgrens

Deze gebieden bevinden zich aan de voorhoede van ML-beveiligingsonderzoek:

Formele verificatie van modelmerges -- Kunnen we bewijzen dat een merge-operatie veiligheidseigenschappen behoudt?
Aantoonbaar robuuste federated aggregatie -- Aggregatieregels die Byzantijnse tolerantie tot een bekende fractie garanderen
Voorspelling van emergentie -- Voorspellen wanneer schaal nieuwe capaciteiten zal produceren voordat ze verschijnen
Herkomst van synthetische data -- Traceren welk model welke trainingsvoorbeelden heeft gegenereerd
Cross-model gedragsforensiek -- Bepalen of het gedrag van een model afgeleid is van een ander model

Gerelateerde onderwerpen

Trainings- en fine-tuningaanvallen -- Standaard aanvalsoppervlak voor training
Vergiftiging van federated learning -- Byzantijnse aanvallen in FL
Exploits van model merging -- Compositionele backdoors
Aanvalsvectoren op modelarchitectuur -- Kwetsbaarheden op architectuurniveau
Supply chain-beveiliging -- Risico's in de modelsupply chain

References

"How to Backdoor Federated Learning" - Bagdasaryan et al. (2020) - Foundational work on model poisoning in federated learning settings
"Model Merging in LLMs, MLLMs, and Beyond" - Yang et al. (2024) - Survey of model merging techniques and their security implications
"Poisoning Web-Scale Training Datasets is Practical" - Carlini et al. (2024) - Demonstrates practical dataset poisoning in web-scale training pipelines
"Scalable Extraction of Training Data from (Production) Language Models" - Nasr et al. (2023) - Training data extraction from production models revealing pipeline vulnerabilities

Knowledge Check

Wat onderscheidt geavanceerde trainingsaanvallen van standaard datavergiftiging?

Geavanceerde aanvalsvectoren voor training

Taxonomie van geavanceerde aanvallen

Het aanvalsoppervlak van samenwerkende training

Federated learning

Model merging

Distributed training

Categorieën van emergent risico

Verdedigingsprioriteiten

Per aanvallerscapaciteit

Onderzoeksgrens

Gerelateerde onderwerpen

References

Leerpad

Geavanceerde aanvalsvectoren voor training

Taxonomie van geavanceerde aanvallen

Het aanvalsoppervlak van samenwerkende training

Federated learning

Model merging

Distributed training

Categorieën van emergent risico

Verdedigingsprioriteiten

Per aanvallerscapaciteit

Onderzoeksgrens

Gerelateerde onderwerpen

References

Leerpad

Geavanceerde aanvalsvectoren voor training

Leerpad

Gerelateerde artikelen

Geavanceerde aanvalsvectoren voor training

Leerpad

Gerelateerde artikelen