RAG-, data- en trainingsaanvallen
Overzicht van aanvallen gericht op de datalaag van AI-systemen, waaronder RAG-poisoning, manipulatie van trainingsdata en data-extractietechnieken.
AI-systemen zijn niet betrouwbaarder dan de data die ze tot zich nemen. De data supply chain vormt een van de aanvalsoppervlakken met de grootste impact in moderne AI-systemen. Dit onderdeel behandelt aanvallen die de datalaag als doelwit hebben — van de documenten in een RAG-pipeline tot de trainingsdata die het gedrag van het model hebben gevormd. Datacentrische aanvallen hebben vaak meer impact en zijn moeilijker te detecteren dan directe prompt injection, omdat ze het fundament aantasten waarop het model steunt.
Het data-aanvalsoppervlak
Moderne AI-applicaties interacteren op meerdere niveaus met data:
Training data → Pre-trained model → Fine-tuning data → Fine-tuned model
↓
User query → Retrieval (RAG) → Retrieved documents → Context → Response
↓
Vector database
(document store)
Elk interactiepunt met data biedt eigen aanvalskansen:
| Laag | Aanval | Persistentie | Detectiemoeilijkheid |
|---|---|---|---|
| Trainingsdata | Datavergiftiging | Permanent (ingebakken in de gewichten) | Zeer moeilijk |
| Fine-tuning-data | Veiligheid afleren, backdoors | Permanent tot hertraind | Moeilijk |
| RAG-documenten | RAG-poisoning | Tot het document is verwijderd | Gemiddeld |
| Runtime-context | Prompt injection | Eén sessie | Makkelijker |
Kernbegrippen
RAG-poisoning injecteert schadelijke documenten in de kennisbank van een retrieval-systeem. Wanneer deze documenten worden opgehaald voor relevante queries, brengen ze door de aanvaller gecontroleerde content in de context van het model. Zie RAG Poisoning.
Aanvallen op trainingsdata manipuleren de data die wordt gebruikt om een model te trainen of te fine-tunen, en installeren backdoors, biases of verzwakte safety-alignment die in de gewichten van het model blijft bestaan. Zie Training Data Attacks.
Data-extractie keert de stroom om — in plaats van data erin te stoppen, trekt de aanvaller data eruit, en extraheert zo trainingsdata, system prompts of gebruikersinformatie uit het model. Zie Data Extraction.
Waarom data-aanvallen ertoe doen
Data-aanvallen zijn om verschillende redenen strategisch belangrijk:
- Persistentie — Vergiftigde trainingsdata of RAG-documenten blijven het systeem beïnvloeden lang nadat de aanvaller zich heeft teruggetrokken
- Schaal — Eén vergiftigd trainingsvoorbeeld kan miljoenen modelinteracties beïnvloeden
- Onopvallendheid — Corruptie op dataniveau is moeilijker te detecteren dan realtime injection, omdat de schadelijke content op legitieme data lijkt
- Indirecte toegang — Aanvallers kunnen het gedrag van het model beïnvloeden zonder het ooit rechtstreeks te bevragen
Leerpad
Begin met RAG Poisoning, want dat is de meest direct praktische aanvalsvector — de meeste enterprise-AI-applicaties gebruiken RAG, en de documentopslag is vaak via diverse kanalen beschrijfbaar. Verken daarna Training Data Attacks voor diepere, hardnekkigere aanvallen, en Data Extraction voor technieken die informatie uit modellen trekken.
Gerelateerde onderwerpen
- RAG Architecture Fundamentals -- hoe RAG-pipelines werken en waar ze kwetsbaar zijn
- Embeddings & Semantic Similarity -- de vector-search-laag waar RAG-poisoning zich op richt
- Indirect Prompt Injection -- injection via opgehaalde content in plaats van directe gebruikersinput
- Lab: RAG Poisoning -- praktische oefening met het vergiftigen van een RAG-kennisbank
- Training Pipeline Attacks -- diepere behandeling van datamanipulatie tijdens de training
Referenties
- Carlini et al., "Extracting Training Data from Large Language Models" (2021) -- fundamenteel onderzoek naar extractie van trainingsdata
- Greshake et al., "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" (2023) -- RAG-poisoning als indirecte injection
- Wan et al., "Poisoning Language Models During Instruction Tuning" (2023) -- datavergiftiging in fine-tuning-pipelines
- Shafahi et al., "Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks" (2018) -- clean-label datavergiftigingstechnieken
Waarom zijn aanvallen op de datalaag doorgaans moeilijker te detecteren dan prompt injection?