Wat is RAG Poisoning?

Technieken om RAG-kennisbanken te vergiftigen en zo kwaadaardige inhoud in de LLM-context te injecteren, waaronder embeddingmanipulatie, het opstellen van documenten en retrieval hijacking.

Wat is Training Data Attacks?

Aanvallen die het modelgedrag corrumperen door trainingsdata, fine-tuning-datasets of RLHF-voorkeursdata te vergiftigen, waaronder het installeren van backdoors en het verwijderen van safety alignment.

Wat is Data Extraction?

Technieken om gememoriseerde trainingsdata, system prompts en privé-informatie uit LLM's te extraheren via gerichte queries en membership inference-aanvallen.

Wat is Knowledge Base Poisoning?

Geavanceerde strategieën voor corpus-poisoning van RAG-systemen, inclusief black-box- en white-boxbenaderingen, schaaldynamiek, en de PoisonedRAG-bevinding dat 5 teksten op miljoenen een aanvalssucces van 90% behalen.

Wat is Retrieval Manipulation?

Technieken om RAG-retrieval te manipuleren en zo te bepalen welke documenten de LLM-context bereiken, waaronder adversariële herformulering van queries, het misbruiken van retriever-bias en het gamen van semantische similariteit.

Wat is Chunk Boundary Attacks?

Het misbruiken van mechanismen voor het opsplitsen en chunken van documenten in RAG-pijplijnen, waaronder payload-injectie op chunkgrenzen, cross-chunk-instructie-injectie en manipulatie van de chunkgrootte.

Wat is Metadata Injection?

Het manipuleren van documentmetadata om de retrieval-ranking in RAG te beïnvloeden, filtering te omzeilen, bronvermelding te vervalsen en metadata-gebaseerde toegangscontroles te misbruiken.

Wat is Embedding Inversion?

Het herstellen van oorspronkelijke tekst uit embeddingvectoren, privacy-implicaties van opgeslagen embeddings, modelinversie-aanvallen op vector-databases en technieken voor analyse van de embedding-ruimte.

RAG-, data- en trainingsaanvallen

Beginner5 min lezenBijgewerkt op 2026-03-12

Overzicht van aanvallen gericht op de datalaag van AI-systemen, waaronder RAG-poisoning, manipulatie van trainingsdata en data-extractietechnieken.

rag data-poisoning training-data data-extraction ai-security

AI-systemen zijn niet betrouwbaarder dan de data die ze tot zich nemen. De data supply chain vormt een van de aanvalsoppervlakken met de grootste impact in moderne AI-systemen. Dit onderdeel behandelt aanvallen die de datalaag als doelwit hebben — van de documenten in een RAG-pipeline tot de trainingsdata die het gedrag van het model hebben gevormd. Datacentrische aanvallen hebben vaak meer impact en zijn moeilijker te detecteren dan directe prompt injection, omdat ze het fundament aantasten waarop het model steunt.

Het data-aanvalsoppervlak

Moderne AI-applicaties interacteren op meerdere niveaus met data:

Training data → Pre-trained model → Fine-tuning data → Fine-tuned model
                                                              ↓
User query → Retrieval (RAG) → Retrieved documents → Context → Response
                  ↓
           Vector database
           (document store)

Elk interactiepunt met data biedt eigen aanvalskansen:

Laag	Aanval	Persistentie	Detectiemoeilijkheid
Trainingsdata	Datavergiftiging	Permanent (ingebakken in de gewichten)	Zeer moeilijk
Fine-tuning-data	Veiligheid afleren, backdoors	Permanent tot hertraind	Moeilijk
RAG-documenten	RAG-poisoning	Tot het document is verwijderd	Gemiddeld
Runtime-context	Prompt injection	Eén sessie	Makkelijker

Kernbegrippen

RAG-poisoning injecteert schadelijke documenten in de kennisbank van een retrieval-systeem. Wanneer deze documenten worden opgehaald voor relevante queries, brengen ze door de aanvaller gecontroleerde content in de context van het model. Zie RAG Poisoning.

Aanvallen op trainingsdata manipuleren de data die wordt gebruikt om een model te trainen of te fine-tunen, en installeren backdoors, biases of verzwakte safety-alignment die in de gewichten van het model blijft bestaan. Zie Training Data Attacks.

Data-extractie keert de stroom om — in plaats van data erin te stoppen, trekt de aanvaller data eruit, en extraheert zo trainingsdata, system prompts of gebruikersinformatie uit het model. Zie Data Extraction.

Waarom data-aanvallen ertoe doen

Data-aanvallen zijn om verschillende redenen strategisch belangrijk:

Persistentie — Vergiftigde trainingsdata of RAG-documenten blijven het systeem beïnvloeden lang nadat de aanvaller zich heeft teruggetrokken
Schaal — Eén vergiftigd trainingsvoorbeeld kan miljoenen modelinteracties beïnvloeden
Onopvallendheid — Corruptie op dataniveau is moeilijker te detecteren dan realtime injection, omdat de schadelijke content op legitieme data lijkt
Indirecte toegang — Aanvallers kunnen het gedrag van het model beïnvloeden zonder het ooit rechtstreeks te bevragen

Leerpad

Begin met RAG Poisoning, want dat is de meest direct praktische aanvalsvector — de meeste enterprise-AI-applicaties gebruiken RAG, en de documentopslag is vaak via diverse kanalen beschrijfbaar. Verken daarna Training Data Attacks voor diepere, hardnekkigere aanvallen, en Data Extraction voor technieken die informatie uit modellen trekken.

Gerelateerde onderwerpen

RAG Architecture Fundamentals -- hoe RAG-pipelines werken en waar ze kwetsbaar zijn
Embeddings & Semantic Similarity -- de vector-search-laag waar RAG-poisoning zich op richt
Indirect Prompt Injection -- injection via opgehaalde content in plaats van directe gebruikersinput
Lab: RAG Poisoning -- praktische oefening met het vergiftigen van een RAG-kennisbank
Training Pipeline Attacks -- diepere behandeling van datamanipulatie tijdens de training

Referenties

Carlini et al., "Extracting Training Data from Large Language Models" (2021) -- fundamenteel onderzoek naar extractie van trainingsdata
Greshake et al., "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" (2023) -- RAG-poisoning als indirecte injection
Wan et al., "Poisoning Language Models During Instruction Tuning" (2023) -- datavergiftiging in fine-tuning-pipelines
Shafahi et al., "Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks" (2018) -- clean-label datavergiftigingstechnieken

Knowledge Check

Waarom zijn aanvallen op de datalaag doorgaans moeilijker te detecteren dan prompt injection?

RAG-, data- en trainingsaanvallen

Beginner5 min lezenBijgewerkt op 2026-03-12

Overzicht van aanvallen gericht op de datalaag van AI-systemen, waaronder RAG-poisoning, manipulatie van trainingsdata en data-extractietechnieken.

rag data-poisoning training-data data-extraction ai-security

Het data-aanvalsoppervlak

Moderne AI-applicaties interacteren op meerdere niveaus met data:

Training data → Pre-trained model → Fine-tuning data → Fine-tuned model
                                                              ↓
User query → Retrieval (RAG) → Retrieved documents → Context → Response
                  ↓
           Vector database
           (document store)

Elk interactiepunt met data biedt eigen aanvalskansen:

Laag	Aanval	Persistentie	Detectiemoeilijkheid
Trainingsdata	Datavergiftiging	Permanent (ingebakken in de gewichten)	Zeer moeilijk
Fine-tuning-data	Veiligheid afleren, backdoors	Permanent tot hertraind	Moeilijk
RAG-documenten	RAG-poisoning	Tot het document is verwijderd	Gemiddeld
Runtime-context	Prompt injection	Eén sessie	Makkelijker

Kernbegrippen

Waarom data-aanvallen ertoe doen

Data-aanvallen zijn om verschillende redenen strategisch belangrijk:

Persistentie — Vergiftigde trainingsdata of RAG-documenten blijven het systeem beïnvloeden lang nadat de aanvaller zich heeft teruggetrokken
Schaal — Eén vergiftigd trainingsvoorbeeld kan miljoenen modelinteracties beïnvloeden
Onopvallendheid — Corruptie op dataniveau is moeilijker te detecteren dan realtime injection, omdat de schadelijke content op legitieme data lijkt
Indirecte toegang — Aanvallers kunnen het gedrag van het model beïnvloeden zonder het ooit rechtstreeks te bevragen

Leerpad

Gerelateerde onderwerpen

RAG Architecture Fundamentals -- hoe RAG-pipelines werken en waar ze kwetsbaar zijn
Embeddings & Semantic Similarity -- de vector-search-laag waar RAG-poisoning zich op richt
Indirect Prompt Injection -- injection via opgehaalde content in plaats van directe gebruikersinput
Lab: RAG Poisoning -- praktische oefening met het vergiftigen van een RAG-kennisbank
Training Pipeline Attacks -- diepere behandeling van datamanipulatie tijdens de training

Referenties

Carlini et al., "Extracting Training Data from Large Language Models" (2021) -- fundamenteel onderzoek naar extractie van trainingsdata
Greshake et al., "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" (2023) -- RAG-poisoning als indirecte injection
Wan et al., "Poisoning Language Models During Instruction Tuning" (2023) -- datavergiftiging in fine-tuning-pipelines
Shafahi et al., "Poison Frogs! Targeted Clean-Label Poisoning Attacks on Neural Networks" (2018) -- clean-label datavergiftigingstechnieken

Knowledge Check

Waarom zijn aanvallen op de datalaag doorgaans moeilijker te detecteren dan prompt injection?

RAG-, data- en trainingsaanvallen

Leerpad

Gerelateerde artikelen

RAG-, data- en trainingsaanvallen

Leerpad

Gerelateerde artikelen