Wat is Advanced Training Vulnerabilities?

Geavanceerde trainingsaanvallen: vergiftiging van federated learning, exploits van model merging, kwetsbaarheden in distributed training, risico's van emergente capaciteiten en aanvallen op synthetische-datapipelines.

Wat is Architecture-Level Attacks?

Hoe keuzes in modelarchitectuur exploiteerbare aanvalsoppervlakken creëren, waaronder attentiemechanismen, MoE-routing, KV-cache en kwetsbaarheden in het contextvenster.

Wat is Fine-tuning & Alignment Attacks?

Compleet overzicht van beveiligingskwetsbaarheden bij fine-tuning, waaronder SFT-datavergiftiging, RLHF-manipulatie, alignment tax en alle aanvalsvectoren van fine-tuning.

Wat is Pre-training Security?

Uitgebreid overzicht van beveiligingskwetsbaarheden bij pre-training, waaronder aanvalsvectoren voor dataverzameling, -opschoning, -deduplicatie en compromittering van datasets op webschaal.

Wat is Data Poisoning at Scale?

Technieken om trainingsdata op schaal te vergiftigen om modelgedrag over brede capaciteiten heen te beïnvloeden.

Wat is Pre-Training Data Attacks?

Het aanvallen van de pre-trainingdatapipeline, waaronder vergiftiging van webcrawls en manipulatie van datacuratie.

Wat is RLHF Pipeline Exploitation?

Het uitbuiten van de training van reward-modellen, het verzamelen van voorkeursdata en de optimalisatielussen van RLHF.

Wat is DPO Training Vulnerabilities?

Beveiligingsanalyse van Direct Preference Optimization-training en de kwetsbaarheid ervan voor preferentievergiftiging.

Wat is Synthetic Data Pipeline Attacks?

Het aanvallen van pipelines voor het genereren van synthetische data die worden gebruikt voor modeltraining en -augmentatie.

Wat is Model Supply Chain Attacks?

Uitgebreide analyse van aanvalsvectoren op de model-supply-chain, van trainingsdata tot en met deployment.

Beveiliging van de trainingspijplijn

Beginner5 min lezenBijgewerkt op 2026-03-15

Beveiliging van de volledige AI-modeltrainingspijplijn, met aandacht voor pre-training-aanvallen, fine-tuning- en alignment-manipulatie, kwetsbaarheden op architectuurniveau en geavanceerde dreigingen tijdens de training.

training pre-training fine-tuning architecture data-poisoning rlhf alignment

De beveiliging van een AI-model wordt al lang bepaald voordat het zijn eerste gebruikersinput verwerkt. Elke fase van de trainingspijplijn -- van dataverzameling via pre-training, fine-tuning, alignment tot uitroloptimalisatie -- introduceert kwetsbaarheden die het gedrag van het model kunnen compromitteren op manieren die runtime-verdedigingen niet kunnen detecteren of voorkomen. Aanvallen op de trainingspijplijn behoren tot de meest persistente en gevaarlijke dreigingen in AI-beveiliging, omdat ze veranderen wat het model fundamenteel is, in plaats van hoe het op een bepaalde input reageert.

Het begrijpen van de beveiliging van de trainingspijplijn vereist denken op een andere tijdschaal dan aanvallen tijdens inference. Een prompt-injectie beïnvloedt één gesprek. Een aanval met trainingsdatavergiftiging beïnvloedt elk gesprek dat het model ooit zal voeren. Een gecompromitteerd RLHF-reward-signaal kan veiligheidsgedrag systematisch verzwakken in het hele model. Een backdoor die tijdens fine-tuning is ingevoegd, kan meerdere latere trainingsruns overleven en alleen activeren wanneer aan specifieke triggervoorwaarden wordt voldaan. De persistentie en schaal van deze aanvallen maken ze een kritieke zorg voor elke organisatie die AI-modellen traint, fine-tunet of uitrolt.

Het aanvalsoppervlak van de trainingspijplijn

De trainingspijplijn is een meerfasig proces, en elke fase biedt afzonderlijke aanvalsmogelijkheden.

Pre-training is waar het model taal leert van enorme datasets die zijn geschraapt van het internet, boeken, code-repository's en andere bronnen. De schaal van pre-training-data -- vaak biljoenen tokens -- maakt het onpraktisch om elk voorbeeld handmatig te beoordelen, wat kansen voor datasetvergiftiging creëert. Een aanvaller die vergiftigde inhoud bijdraagt aan bronnen die waarschijnlijk in de trainingsdata worden opgenomen (Wikipedia, Stack Overflow, GitHub, Common Crawl-bronnen) kan het modelgedrag op een fundamenteel niveau beïnvloeden. Aanvallen op de trainingslus manipuleren het optimalisatieproces zelf. Checkpoint-aanvallen compromitteren opgeslagen modeltoestanden die worden gebruikt om de training te hervatten of te distribueren. Tokenizer-manipulatie buit het tekst-naar-token-conversieproces uit dat bepaalt hoe het model zijn inputs ziet.

Fine-tuning en alignment nemen een voorgetraind model en passen het aan voor specifieke taken en veiligheidsvereisten. Deze fase is bijzonder beveiligingskritiek omdat het de fase is waarin veiligheidsgedrag wordt ingebed. Vergiftiging van supervised fine-tuning (SFT) voegt voorbeelden in die het model schadelijk gedrag aanleren naast behulpzaam gedrag. RLHF-aanvallen compromitteren het menselijke feedbacksignaal dat de safety-alignment stuurt, waardoor het model optimaliseert voor door de aanvaller gewenst gedrag terwijl het op veiligheidsmetrieken lijkt te verbeteren. DPO-alignment-aanvallen buiten direct preference optimization uit om de voorkeuren van het model subtiel te verschuiven. LoRA-adapter-aanvallen richten zich op het parameter-efficiënte fine-tuning-proces en voegen backdoors in via lichtgewicht adaptergewichten die eenvoudig te distribueren en moeilijk te auditen zijn. Reward hacking buit de kloof uit tussen wat het reward-model meet en wat werkelijk veilig gedrag is.

Aanvallen op architectuurniveau richten zich op de technische optimalisaties die tijdens en na de training worden toegepast. Kwantisatie vermindert de precisie van het model om de inferentiesnelheid te verbeteren en de geheugenvereisten te verlagen, maar deze precisievermindering kan worden uitgebuit om bepaald gedrag te versterken of nieuwe kwetsbaarheden te creëren. Distillatie-aanvallen compromitteren de kennisoverdracht van grote teacher-modellen naar kleinere student-modellen. KV-cache-aanvallen manipuleren de key-value-caches die attention-berekeningen opslaan, wat mogelijk persistente toestand injecteert. Mixture-of-experts (MoE)-routing-aanvallen sturen inputs naar specifieke expertmodules, wat mogelijk veiligheidsgespecialiseerde experts omzeilt. Contextvensteraanvallen buiten uit hoe modellen inputs aan de grenzen van hun contextcapaciteit afhandelen.

Geavanceerde trainingskwetsbaarheden behandelen opkomende dreigingen in het trainingslandschap. Federated-learning-aanvallen compromitteren gedistribueerde training over meerdere partijen. Model merging introduceert risico's bij het combineren van onafhankelijk getrainde modellen. Watermark removal verwijdert herkomstmarkeringen uit modellen. Synthetische-data-aanvallen vergiftigen de steeds gebruikelijkere praktijk van het gebruik van AI-gegenereerde data voor training. Unlearning-aanvallen richten zich op de opkomende praktijk van het selectief verwijderen van geleerd gedrag, door de onvolledigheid van kennisverwijdering uit te buiten.

Wat je leert in deze sectie

Pre-training-beveiliging -- Datasetvergiftigingstechnieken, aanvallen op de trainingslus, compromittering van checkpoints, tokenizer-manipulatie en praktisch datasetvergiftigingslab
Fine-tuning- & alignment-aanvallen -- SFT-vergiftiging, RLHF-aanvallen, DPO-alignment-manipulatie, LoRA-adapter-aanvallen, reward hacking, Constitutional AI-bypass, analyse van de alignment tax en fine-tuning-backdoor-lab
Aanvallen op architectuurniveau -- Uitbuiting van kwantisatie, distillatie-aanvallen, KV-cache-aanvallen, kwetsbaarheden in inferentie-optimalisatie, contextvensteraanvallen, manipulatie van MoE-routing en kwantisatie-uitbuitingslab
Geavanceerde trainingskwetsbaarheden -- Federated-learning-aanvallen, model-merging-risico's, watermark removal, synthetische-data-aanvallen, beveiliging van gedistribueerde training, emergentie- en capaciteitsrisico's, unlearning-aanvallen en kwetsbaarheden van continual learning

Vereisten

Beveiliging van de trainingspijplijn vereist diepere ML-kennis dan de meeste andere secties:

Hoe LLM's werken -- Overzicht van de trainingspijplijn, transformer-architectuur en tokenisatie uit Hoe LLM's werken
ML-trainingsconcepten -- Begrip van loss-functies, gradient descent, backpropagation en optimalisatie op conceptueel niveau
Python en PyTorch -- Labs vereisen praktische ervaring met ML-trainingscode
Begrip van de datapijplijn -- Hoe trainingsdatasets worden verzameld, opgeschoond en verwerkt

Beveiliging van de trainingspijplijn

Beginner5 min lezenBijgewerkt op 2026-03-15

training pre-training fine-tuning architecture data-poisoning rlhf alignment

Het aanvalsoppervlak van de trainingspijplijn

De trainingspijplijn is een meerfasig proces, en elke fase biedt afzonderlijke aanvalsmogelijkheden.

Wat je leert in deze sectie

Pre-training-beveiliging -- Datasetvergiftigingstechnieken, aanvallen op de trainingslus, compromittering van checkpoints, tokenizer-manipulatie en praktisch datasetvergiftigingslab
Fine-tuning- & alignment-aanvallen -- SFT-vergiftiging, RLHF-aanvallen, DPO-alignment-manipulatie, LoRA-adapter-aanvallen, reward hacking, Constitutional AI-bypass, analyse van de alignment tax en fine-tuning-backdoor-lab
Aanvallen op architectuurniveau -- Uitbuiting van kwantisatie, distillatie-aanvallen, KV-cache-aanvallen, kwetsbaarheden in inferentie-optimalisatie, contextvensteraanvallen, manipulatie van MoE-routing en kwantisatie-uitbuitingslab
Geavanceerde trainingskwetsbaarheden -- Federated-learning-aanvallen, model-merging-risico's, watermark removal, synthetische-data-aanvallen, beveiliging van gedistribueerde training, emergentie- en capaciteitsrisico's, unlearning-aanvallen en kwetsbaarheden van continual learning

Vereisten

Beveiliging van de trainingspijplijn vereist diepere ML-kennis dan de meeste andere secties:

Hoe LLM's werken -- Overzicht van de trainingspijplijn, transformer-architectuur en tokenisatie uit Hoe LLM's werken
ML-trainingsconcepten -- Begrip van loss-functies, gradient descent, backpropagation en optimalisatie op conceptueel niveau
Python en PyTorch -- Labs vereisen praktische ervaring met ML-trainingscode
Begrip van de datapijplijn -- Hoe trainingsdatasets worden verzameld, opgeschoond en verwerkt

Beveiliging van de trainingspijplijn

Het aanvalsoppervlak van de trainingspijplijn

Wat je leert in deze sectie

Vereisten

Leerpad

Beveiliging van de trainingspijplijn

Het aanvalsoppervlak van de trainingspijplijn

Wat je leert in deze sectie

Vereisten

Leerpad

Beveiliging van de trainingspijplijn

Het aanvalsoppervlak van de trainingspijplijn

Wat je leert in deze sectie

Vereisten

Leerpad

Gerelateerde artikelen

Beveiliging van de trainingspijplijn

Het aanvalsoppervlak van de trainingspijplijn

Wat je leert in deze sectie

Vereisten

Leerpad

Gerelateerde artikelen