Beveiliging van de trainingspijplijn
Beveiliging van de volledige AI-modeltrainingspijplijn, met aandacht voor pre-training-aanvallen, fine-tuning- en alignment-manipulatie, kwetsbaarheden op architectuurniveau en geavanceerde dreigingen tijdens de training.
De beveiliging van een AI-model wordt al lang bepaald voordat het zijn eerste gebruikersinput verwerkt. Elke fase van de trainingspijplijn -- van dataverzameling via pre-training, fine-tuning, alignment tot uitroloptimalisatie -- introduceert kwetsbaarheden die het gedrag van het model kunnen compromitteren op manieren die runtime-verdedigingen niet kunnen detecteren of voorkomen. Aanvallen op de trainingspijplijn behoren tot de meest persistente en gevaarlijke dreigingen in AI-beveiliging, omdat ze veranderen wat het model fundamenteel is, in plaats van hoe het op een bepaalde input reageert.
Het begrijpen van de beveiliging van de trainingspijplijn vereist denken op een andere tijdschaal dan aanvallen tijdens inference. Een prompt-injectie beïnvloedt één gesprek. Een aanval met trainingsdatavergiftiging beïnvloedt elk gesprek dat het model ooit zal voeren. Een gecompromitteerd RLHF-reward-signaal kan veiligheidsgedrag systematisch verzwakken in het hele model. Een backdoor die tijdens fine-tuning is ingevoegd, kan meerdere latere trainingsruns overleven en alleen activeren wanneer aan specifieke triggervoorwaarden wordt voldaan. De persistentie en schaal van deze aanvallen maken ze een kritieke zorg voor elke organisatie die AI-modellen traint, fine-tunet of uitrolt.
Het aanvalsoppervlak van de trainingspijplijn
De trainingspijplijn is een meerfasig proces, en elke fase biedt afzonderlijke aanvalsmogelijkheden.
Pre-training is waar het model taal leert van enorme datasets die zijn geschraapt van het internet, boeken, code-repository's en andere bronnen. De schaal van pre-training-data -- vaak biljoenen tokens -- maakt het onpraktisch om elk voorbeeld handmatig te beoordelen, wat kansen voor datasetvergiftiging creëert. Een aanvaller die vergiftigde inhoud bijdraagt aan bronnen die waarschijnlijk in de trainingsdata worden opgenomen (Wikipedia, Stack Overflow, GitHub, Common Crawl-bronnen) kan het modelgedrag op een fundamenteel niveau beïnvloeden. Aanvallen op de trainingslus manipuleren het optimalisatieproces zelf. Checkpoint-aanvallen compromitteren opgeslagen modeltoestanden die worden gebruikt om de training te hervatten of te distribueren. Tokenizer-manipulatie buit het tekst-naar-token-conversieproces uit dat bepaalt hoe het model zijn inputs ziet.
Fine-tuning en alignment nemen een voorgetraind model en passen het aan voor specifieke taken en veiligheidsvereisten. Deze fase is bijzonder beveiligingskritiek omdat het de fase is waarin veiligheidsgedrag wordt ingebed. Vergiftiging van supervised fine-tuning (SFT) voegt voorbeelden in die het model schadelijk gedrag aanleren naast behulpzaam gedrag. RLHF-aanvallen compromitteren het menselijke feedbacksignaal dat de safety-alignment stuurt, waardoor het model optimaliseert voor door de aanvaller gewenst gedrag terwijl het op veiligheidsmetrieken lijkt te verbeteren. DPO-alignment-aanvallen buiten direct preference optimization uit om de voorkeuren van het model subtiel te verschuiven. LoRA-adapter-aanvallen richten zich op het parameter-efficiënte fine-tuning-proces en voegen backdoors in via lichtgewicht adaptergewichten die eenvoudig te distribueren en moeilijk te auditen zijn. Reward hacking buit de kloof uit tussen wat het reward-model meet en wat werkelijk veilig gedrag is.
Aanvallen op architectuurniveau richten zich op de technische optimalisaties die tijdens en na de training worden toegepast. Kwantisatie vermindert de precisie van het model om de inferentiesnelheid te verbeteren en de geheugenvereisten te verlagen, maar deze precisievermindering kan worden uitgebuit om bepaald gedrag te versterken of nieuwe kwetsbaarheden te creëren. Distillatie-aanvallen compromitteren de kennisoverdracht van grote teacher-modellen naar kleinere student-modellen. KV-cache-aanvallen manipuleren de key-value-caches die attention-berekeningen opslaan, wat mogelijk persistente toestand injecteert. Mixture-of-experts (MoE)-routing-aanvallen sturen inputs naar specifieke expertmodules, wat mogelijk veiligheidsgespecialiseerde experts omzeilt. Contextvensteraanvallen buiten uit hoe modellen inputs aan de grenzen van hun contextcapaciteit afhandelen.
Geavanceerde trainingskwetsbaarheden behandelen opkomende dreigingen in het trainingslandschap. Federated-learning-aanvallen compromitteren gedistribueerde training over meerdere partijen. Model merging introduceert risico's bij het combineren van onafhankelijk getrainde modellen. Watermark removal verwijdert herkomstmarkeringen uit modellen. Synthetische-data-aanvallen vergiftigen de steeds gebruikelijkere praktijk van het gebruik van AI-gegenereerde data voor training. Unlearning-aanvallen richten zich op de opkomende praktijk van het selectief verwijderen van geleerd gedrag, door de onvolledigheid van kennisverwijdering uit te buiten.
Wat je leert in deze sectie
- Pre-training-beveiliging -- Datasetvergiftigingstechnieken, aanvallen op de trainingslus, compromittering van checkpoints, tokenizer-manipulatie en praktisch datasetvergiftigingslab
- Fine-tuning- & alignment-aanvallen -- SFT-vergiftiging, RLHF-aanvallen, DPO-alignment-manipulatie, LoRA-adapter-aanvallen, reward hacking, Constitutional AI-bypass, analyse van de alignment tax en fine-tuning-backdoor-lab
- Aanvallen op architectuurniveau -- Uitbuiting van kwantisatie, distillatie-aanvallen, KV-cache-aanvallen, kwetsbaarheden in inferentie-optimalisatie, contextvensteraanvallen, manipulatie van MoE-routing en kwantisatie-uitbuitingslab
- Geavanceerde trainingskwetsbaarheden -- Federated-learning-aanvallen, model-merging-risico's, watermark removal, synthetische-data-aanvallen, beveiliging van gedistribueerde training, emergentie- en capaciteitsrisico's, unlearning-aanvallen en kwetsbaarheden van continual learning
Vereisten
Beveiliging van de trainingspijplijn vereist diepere ML-kennis dan de meeste andere secties:
- Hoe LLM's werken -- Overzicht van de trainingspijplijn, transformer-architectuur en tokenisatie uit Hoe LLM's werken
- ML-trainingsconcepten -- Begrip van loss-functies, gradient descent, backpropagation en optimalisatie op conceptueel niveau
- Python en PyTorch -- Labs vereisen praktische ervaring met ML-trainingscode
- Begrip van de datapijplijn -- Hoe trainingsdatasets worden verzameld, opgeschoond en verwerkt