Wat is Gradient-Based Attacks?

Hoe gradiënten worden gebruikt om adversarial input voor LLM's te maken — FGSM, PGD en GCG-aanvallen uitgelegd met toegankelijke wiskunde en praktische voorbeelden.

Wat is AI Threat Models?

Toegangsniveaus bij het testen van AI-beveiliging — wat op elk niveau mogelijk is, realistische scenario's en een vergelijking met traditionele dreigingsmodellering in de security.

Adversarial ML: kernconcepten

Gemiddeld8 min lezenBijgewerkt op 2026-03-13

Geschiedenis en grondbeginselen van adversarial machine learning — verstoringsaanvallen, evasion vs. poisoning, robuustheid — als brug van klassieke adversarial ML naar LLM-specifieke aanvallen.

adversarial-ml fundamentals evasion poisoning intermediate

Een korte geschiedenis van adversarial ML

Adversarial machine learning begon niet met LLM's. Het vakgebied ontstond uit beeldclassificatie, waar onderzoekers ontdekten dat onmerkbare pixelwijzigingen neurale netwerken ertoe konden brengen afbeeldingen met grote zekerheid verkeerd te classificeren.

Jaar	Mijlpaal	Belang
2004	Adversarial aanvallen op spamfilters	Eerste praktische adversarial ML
2013	Szegedy et al. — adversarial voorbeelden voor afbeeldingen	Formele ontdekking van adversarial kwetsbaarheid in neurale netwerken
2014	FGSM (Goodfellow et al.)	Eerste efficiënte methode om adversarial voorbeelden te genereren
2017	PGD (Madry et al.)	Sterke iteratieve aanval, werd benchmark
2020	TextFooler, TextBugger	Adversarial aanvallen aangepast voor NLP
2023	GCG universele suffixen (Zou et al.)	Gradient-gebaseerde aanvallen op LLM-alignment
2024+	Multimodale aanvallen, misbruik van agents	Adversarial ML ontmoet autonome AI-systemen

De vier aanvalscategorieën

Adversarial ML-aanvallen vallen in vier categorieën uiteen, te onderscheiden naar hun doel en het moment waarop ze plaatsvinden:

1. Evasion-aanvallen (tijdens inferentie)

Het maken van input die het model ertoe brengt foutieve output te produceren tijdens inferentie, zonder het model zelf te wijzigen.

Voorbeeld uit klassieke ML	LLM-equivalent
Een adversarial sticker op een stopbord veroorzaakt een misclassificatie	Een adversarial suffix op een prompt veroorzaakt een jailbreak
Een verstoorde afbeelding misleidt een malwareclassificator	Versluierde tekst omzeilt een toxiciteitsfilter

# Klassiek: verstoor een afbeelding
adversarial_image = original_image + epsilon * sign(gradient)
 
# LLM: voeg een adversarial suffix toe aan een prompt
adversarial_prompt = harmful_request + " " + optimized_suffix

2. Poisoning-aanvallen (tijdens training)

Het wijzigen van trainingsdata om het modelgedrag te veranderen — door de algemene prestaties te verslechteren of door specifieke backdoors in te bouwen.

Type poisoning	Mechanisme	Voorbeeld
Beschikbaarheid	Verslechter de algehele modelkwaliteit	Injecteren van ruis/verkeerde labels
Gericht	Verander gedrag voor specifieke input	Model classificeert één specifiek persoon verkeerd
Backdoor	Voeg trigger-geactiveerd gedrag in	Model gedraagt zich normaal tenzij de trigger aanwezig is

3. Modelextractie-aanvallen

Het stelen van de functionaliteit van een model door het te bevragen en de antwoorden te gebruiken om een kloon te trainen.

Techniek	Querybudget	Getrouwheid
Willekeurig bevragen	Hoog (miljoenen)	Laag
Active learning	Gemiddeld (duizenden)	Gemiddeld
Distillatie	Gemiddeld	Gemiddeld-hoog
API-gebaseerde extractie	Afhankelijk van rate limits	Wisselend

4. Inferentie-aanvallen (privacy)

Het achterhalen van privé-informatie over de trainingsdata of individuele datapunten.

Aanval	Wat het onthult	Relevantie voor LLM's
Membership inference	Of een specifieke record in de trainingsdata zat	Detecteren of privétekst voor training is gebruikt
Modelinversie	Trainingsdata reconstrueren vanuit het model	Onthouden PII, code of geheimen achterhalen
Attribuut-inferentie	Gevoelige attributen over de personen in de trainingsdata afleiden	Demografische gegevens afleiden uit modelgedrag

Verstoringsaanvallen: de basis

Het concept van adversarial verstoringen staat centraal in adversarial ML.

Hoe verstoringen werken

Een verstoring is een kleine wijziging in een input die (idealiter) onmerkbaar is voor mensen, maar het model ertoe brengt een andere output te produceren:

x' = x + δ    where ||δ|| ≤ ε

x  = original input
x' = adversarial input
δ  = perturbation (small change)
ε  = perturbation budget (maximum allowed change)

Van afbeeldingen naar tekst

Verstoringen in de beeldruimte zijn continu (pixelwaarden aanpassen). In tekst moeten verstoringen discreet zijn (woorden of tokens veranderen), wat andere uitdagingen oplevert:

Domein	Type verstoring	Beperking	Uitdaging
Afbeeldingen	Wijzigingen van pixelwaarden	L∞- of L2-norm ≤ ε	Wijzigingen moeten onmerkbaar zijn
Tekst	Woord-/tokenvervanging	Semantische gelijkwaardigheid	Moet betekenis en grammatica behouden
LLM-prompts	Wijzigingen in tokenreeks	Taakspecifiek	Moet het aanvalsdoel bereiken

Robuustheid: het verdedigingsperspectief

Robuustheid meet hoe goed een model bestand is tegen adversarial input.

Type robuustheid	Definitie	Meting
Empirische robuustheid	Weerstand tegen bekende aanvalsmethoden	Slagingspercentage van aanvallen
Gecertificeerde robuustheid	Wiskundig bewezen grenzen voor de tolerantie tegen verstoringen	Formele verificatie
Distributionele robuustheid	Prestaties op out-of-distribution-input	OOD-benchmarks

De afweging tussen robuustheid en nauwkeurigheid

Een algemeen erkende bevinding: modellen robuuster maken tegen adversarial voorbeelden verlaagt doorgaans hun nauwkeurigheid op schone input. Voor LLM's uit zich dit als:

Modellen die zeer goed bestand zijn tegen jailbreaks weigeren mogelijk ook legitieme verzoeken (over-refusal)
Modellen die zeer behulpzaam en flexibel zijn, zijn doorgaans makkelijker te jailbreaken
De juiste balans vinden is een voortdurende uitdaging zonder perfecte oplossing

De brug naar LLM-aanvallen

Klassieke concepten uit adversarial ML laten zich rechtstreeks vertalen naar LLM-aanvalstechnieken:

Klassiek concept	LLM-equivalent	Belangrijkste verschil
Adversarial voorbeelden	Jailbreak-prompts	Tekst is discreet, niet continu
Verstoringsbudget	Beperking op de natuurlijkheid van prompts	Moet leesbaar blijven
Gerichte aanval	Het model naar een specifieke output sturen	Doel is gedragsmatig, niet classificerend
Universele verstoring	Universele jailbreak-suffixen	Werkt over meerdere inputs heen
Overdraagbaarheid	Cross-model jailbreaks	Aanvallen voor het ene model kunnen op andere werken
Adversarial training	RLHF-veiligheidstraining	Trainen op adversarial voorbeelden om weerstand op te bouwen

Gerelateerde onderwerpen

Gradient-gebaseerde aanvallen uitgelegd — de wiskundige gereedschappen om adversarial input te maken
AI-dreigingsmodellen — toegangsniveaus en mogelijkheden die de haalbaarheid van aanvallen bepalen
Pre-training → fine-tuning → RLHF-pijplijn — waar poisoning-aanvallen het trainingsproces aanvallen
Tokenisatie & de beveiligingsimplicaties ervan — hoe discrete tekstverstoringen interageren met tokenisatie

Referenties

"Intriguing Properties of Neural Networks" - Szegedy et al. (2013) - Het baanbrekende paper dat adversarial voorbeelden in neurale netwerken ontdekte
"Explaining and Harnessing Adversarial Examples" - Goodfellow et al. (2014) - Het paper dat FGSM en de lineaire hypothese voor adversarial kwetsbaarheid introduceerde
"Towards Deep Learning Models Resistant to Adversarial Attacks" - Madry et al. (2017) - Het PGD-aanvalspaper dat de benchmark voor het evalueren van adversarial robuustheid vastlegde
"Universal and Transferable Adversarial Attacks on Aligned Language Models" - Zou et al. (2023) - Het GCG-paper dat klassieke adversarial ML verbindt met het jailbreaken van LLM's
"Taxonomy of Machine Learning Safety" - Goldblum et al. (2023) - Uitgebreide classificatie van ML-veiligheidsdreigingen, inclusief adversarial aanvallen over verschillende modaliteiten

Knowledge Check

Wat is het belangrijkste verschil tussen evasion-aanvallen en poisoning-aanvallen?

Adversarial ML: kernconcepten

Gemiddeld8 min lezenBijgewerkt op 2026-03-13

Geschiedenis en grondbeginselen van adversarial machine learning — verstoringsaanvallen, evasion vs. poisoning, robuustheid — als brug van klassieke adversarial ML naar LLM-specifieke aanvallen.

adversarial-ml fundamentals evasion poisoning intermediate

Een korte geschiedenis van adversarial ML

Jaar	Mijlpaal	Belang
2004	Adversarial aanvallen op spamfilters	Eerste praktische adversarial ML
2013	Szegedy et al. — adversarial voorbeelden voor afbeeldingen	Formele ontdekking van adversarial kwetsbaarheid in neurale netwerken
2014	FGSM (Goodfellow et al.)	Eerste efficiënte methode om adversarial voorbeelden te genereren
2017	PGD (Madry et al.)	Sterke iteratieve aanval, werd benchmark
2020	TextFooler, TextBugger	Adversarial aanvallen aangepast voor NLP
2023	GCG universele suffixen (Zou et al.)	Gradient-gebaseerde aanvallen op LLM-alignment
2024+	Multimodale aanvallen, misbruik van agents	Adversarial ML ontmoet autonome AI-systemen

De vier aanvalscategorieën

Adversarial ML-aanvallen vallen in vier categorieën uiteen, te onderscheiden naar hun doel en het moment waarop ze plaatsvinden:

1. Evasion-aanvallen (tijdens inferentie)

Het maken van input die het model ertoe brengt foutieve output te produceren tijdens inferentie, zonder het model zelf te wijzigen.

Voorbeeld uit klassieke ML	LLM-equivalent
Een adversarial sticker op een stopbord veroorzaakt een misclassificatie	Een adversarial suffix op een prompt veroorzaakt een jailbreak
Een verstoorde afbeelding misleidt een malwareclassificator	Versluierde tekst omzeilt een toxiciteitsfilter

# Klassiek: verstoor een afbeelding
adversarial_image = original_image + epsilon * sign(gradient)
 
# LLM: voeg een adversarial suffix toe aan een prompt
adversarial_prompt = harmful_request + " " + optimized_suffix

2. Poisoning-aanvallen (tijdens training)

Het wijzigen van trainingsdata om het modelgedrag te veranderen — door de algemene prestaties te verslechteren of door specifieke backdoors in te bouwen.

Type poisoning	Mechanisme	Voorbeeld
Beschikbaarheid	Verslechter de algehele modelkwaliteit	Injecteren van ruis/verkeerde labels
Gericht	Verander gedrag voor specifieke input	Model classificeert één specifiek persoon verkeerd
Backdoor	Voeg trigger-geactiveerd gedrag in	Model gedraagt zich normaal tenzij de trigger aanwezig is

3. Modelextractie-aanvallen

Het stelen van de functionaliteit van een model door het te bevragen en de antwoorden te gebruiken om een kloon te trainen.

Techniek	Querybudget	Getrouwheid
Willekeurig bevragen	Hoog (miljoenen)	Laag
Active learning	Gemiddeld (duizenden)	Gemiddeld
Distillatie	Gemiddeld	Gemiddeld-hoog
API-gebaseerde extractie	Afhankelijk van rate limits	Wisselend

4. Inferentie-aanvallen (privacy)

Het achterhalen van privé-informatie over de trainingsdata of individuele datapunten.

Aanval	Wat het onthult	Relevantie voor LLM's
Membership inference	Of een specifieke record in de trainingsdata zat	Detecteren of privétekst voor training is gebruikt
Modelinversie	Trainingsdata reconstrueren vanuit het model	Onthouden PII, code of geheimen achterhalen
Attribuut-inferentie	Gevoelige attributen over de personen in de trainingsdata afleiden	Demografische gegevens afleiden uit modelgedrag

Verstoringsaanvallen: de basis

Het concept van adversarial verstoringen staat centraal in adversarial ML.

Hoe verstoringen werken

Een verstoring is een kleine wijziging in een input die (idealiter) onmerkbaar is voor mensen, maar het model ertoe brengt een andere output te produceren:

x' = x + δ    where ||δ|| ≤ ε

x  = original input
x' = adversarial input
δ  = perturbation (small change)
ε  = perturbation budget (maximum allowed change)

Van afbeeldingen naar tekst

Verstoringen in de beeldruimte zijn continu (pixelwaarden aanpassen). In tekst moeten verstoringen discreet zijn (woorden of tokens veranderen), wat andere uitdagingen oplevert:

Domein	Type verstoring	Beperking	Uitdaging
Afbeeldingen	Wijzigingen van pixelwaarden	L∞- of L2-norm ≤ ε	Wijzigingen moeten onmerkbaar zijn
Tekst	Woord-/tokenvervanging	Semantische gelijkwaardigheid	Moet betekenis en grammatica behouden
LLM-prompts	Wijzigingen in tokenreeks	Taakspecifiek	Moet het aanvalsdoel bereiken

Robuustheid: het verdedigingsperspectief

Robuustheid meet hoe goed een model bestand is tegen adversarial input.

Type robuustheid	Definitie	Meting
Empirische robuustheid	Weerstand tegen bekende aanvalsmethoden	Slagingspercentage van aanvallen
Gecertificeerde robuustheid	Wiskundig bewezen grenzen voor de tolerantie tegen verstoringen	Formele verificatie
Distributionele robuustheid	Prestaties op out-of-distribution-input	OOD-benchmarks

De afweging tussen robuustheid en nauwkeurigheid

Een algemeen erkende bevinding: modellen robuuster maken tegen adversarial voorbeelden verlaagt doorgaans hun nauwkeurigheid op schone input. Voor LLM's uit zich dit als:

Modellen die zeer goed bestand zijn tegen jailbreaks weigeren mogelijk ook legitieme verzoeken (over-refusal)
Modellen die zeer behulpzaam en flexibel zijn, zijn doorgaans makkelijker te jailbreaken
De juiste balans vinden is een voortdurende uitdaging zonder perfecte oplossing

De brug naar LLM-aanvallen

Klassieke concepten uit adversarial ML laten zich rechtstreeks vertalen naar LLM-aanvalstechnieken:

Klassiek concept	LLM-equivalent	Belangrijkste verschil
Adversarial voorbeelden	Jailbreak-prompts	Tekst is discreet, niet continu
Verstoringsbudget	Beperking op de natuurlijkheid van prompts	Moet leesbaar blijven
Gerichte aanval	Het model naar een specifieke output sturen	Doel is gedragsmatig, niet classificerend
Universele verstoring	Universele jailbreak-suffixen	Werkt over meerdere inputs heen
Overdraagbaarheid	Cross-model jailbreaks	Aanvallen voor het ene model kunnen op andere werken
Adversarial training	RLHF-veiligheidstraining	Trainen op adversarial voorbeelden om weerstand op te bouwen

Gerelateerde onderwerpen

Gradient-gebaseerde aanvallen uitgelegd — de wiskundige gereedschappen om adversarial input te maken
AI-dreigingsmodellen — toegangsniveaus en mogelijkheden die de haalbaarheid van aanvallen bepalen
Pre-training → fine-tuning → RLHF-pijplijn — waar poisoning-aanvallen het trainingsproces aanvallen
Tokenisatie & de beveiligingsimplicaties ervan — hoe discrete tekstverstoringen interageren met tokenisatie

Referenties

"Intriguing Properties of Neural Networks" - Szegedy et al. (2013) - Het baanbrekende paper dat adversarial voorbeelden in neurale netwerken ontdekte
"Explaining and Harnessing Adversarial Examples" - Goodfellow et al. (2014) - Het paper dat FGSM en de lineaire hypothese voor adversarial kwetsbaarheid introduceerde
"Towards Deep Learning Models Resistant to Adversarial Attacks" - Madry et al. (2017) - Het PGD-aanvalspaper dat de benchmark voor het evalueren van adversarial robuustheid vastlegde
"Universal and Transferable Adversarial Attacks on Aligned Language Models" - Zou et al. (2023) - Het GCG-paper dat klassieke adversarial ML verbindt met het jailbreaken van LLM's
"Taxonomy of Machine Learning Safety" - Goldblum et al. (2023) - Uitgebreide classificatie van ML-veiligheidsdreigingen, inclusief adversarial aanvallen over verschillende modaliteiten

Knowledge Check

Wat is het belangrijkste verschil tussen evasion-aanvallen en poisoning-aanvallen?

Adversarial ML: kernconcepten

Een korte geschiedenis van adversarial ML

De vier aanvalscategorieën

1. Evasion-aanvallen (tijdens inferentie)

2. Poisoning-aanvallen (tijdens training)

3. Modelextractie-aanvallen

4. Inferentie-aanvallen (privacy)

Verstoringsaanvallen: de basis

Hoe verstoringen werken

Van afbeeldingen naar tekst

Robuustheid: het verdedigingsperspectief

De afweging tussen robuustheid en nauwkeurigheid

De brug naar LLM-aanvallen

Gerelateerde onderwerpen

Referenties

Leerpad

Adversarial ML: kernconcepten

Een korte geschiedenis van adversarial ML

De vier aanvalscategorieën

1. Evasion-aanvallen (tijdens inferentie)

2. Poisoning-aanvallen (tijdens training)

3. Modelextractie-aanvallen

4. Inferentie-aanvallen (privacy)

Verstoringsaanvallen: de basis

Hoe verstoringen werken

Van afbeeldingen naar tekst

Robuustheid: het verdedigingsperspectief

De afweging tussen robuustheid en nauwkeurigheid

De brug naar LLM-aanvallen

Gerelateerde onderwerpen

Referenties

Leerpad

Adversarial ML: kernconcepten

Leerpad

Gerelateerde artikelen

Adversarial ML: kernconcepten

Leerpad

Gerelateerde artikelen