Adversarial ML: kernconcepten
Geschiedenis en grondbeginselen van adversarial machine learning — verstoringsaanvallen, evasion vs. poisoning, robuustheid — als brug van klassieke adversarial ML naar LLM-specifieke aanvallen.
Een korte geschiedenis van adversarial ML
Adversarial machine learning begon niet met LLM's. Het vakgebied ontstond uit beeldclassificatie, waar onderzoekers ontdekten dat onmerkbare pixelwijzigingen neurale netwerken ertoe konden brengen afbeeldingen met grote zekerheid verkeerd te classificeren.
| Jaar | Mijlpaal | Belang |
|---|---|---|
| 2004 | Adversarial aanvallen op spamfilters | Eerste praktische adversarial ML |
| 2013 | Szegedy et al. — adversarial voorbeelden voor afbeeldingen | Formele ontdekking van adversarial kwetsbaarheid in neurale netwerken |
| 2014 | FGSM (Goodfellow et al.) | Eerste efficiënte methode om adversarial voorbeelden te genereren |
| 2017 | PGD (Madry et al.) | Sterke iteratieve aanval, werd benchmark |
| 2020 | TextFooler, TextBugger | Adversarial aanvallen aangepast voor NLP |
| 2023 | GCG universele suffixen (Zou et al.) | Gradient-gebaseerde aanvallen op LLM-alignment |
| 2024+ | Multimodale aanvallen, misbruik van agents | Adversarial ML ontmoet autonome AI-systemen |
De vier aanvalscategorieën
Adversarial ML-aanvallen vallen in vier categorieën uiteen, te onderscheiden naar hun doel en het moment waarop ze plaatsvinden:
1. Evasion-aanvallen (tijdens inferentie)
Het maken van input die het model ertoe brengt foutieve output te produceren tijdens inferentie, zonder het model zelf te wijzigen.
| Voorbeeld uit klassieke ML | LLM-equivalent |
|---|---|
| Een adversarial sticker op een stopbord veroorzaakt een misclassificatie | Een adversarial suffix op een prompt veroorzaakt een jailbreak |
| Een verstoorde afbeelding misleidt een malwareclassificator | Versluierde tekst omzeilt een toxiciteitsfilter |
# Klassiek: verstoor een afbeelding
adversarial_image = original_image + epsilon * sign(gradient)
# LLM: voeg een adversarial suffix toe aan een prompt
adversarial_prompt = harmful_request + " " + optimized_suffix2. Poisoning-aanvallen (tijdens training)
Het wijzigen van trainingsdata om het modelgedrag te veranderen — door de algemene prestaties te verslechteren of door specifieke backdoors in te bouwen.
| Type poisoning | Mechanisme | Voorbeeld |
|---|---|---|
| Beschikbaarheid | Verslechter de algehele modelkwaliteit | Injecteren van ruis/verkeerde labels |
| Gericht | Verander gedrag voor specifieke input | Model classificeert één specifiek persoon verkeerd |
| Backdoor | Voeg trigger-geactiveerd gedrag in | Model gedraagt zich normaal tenzij de trigger aanwezig is |
3. Modelextractie-aanvallen
Het stelen van de functionaliteit van een model door het te bevragen en de antwoorden te gebruiken om een kloon te trainen.
| Techniek | Querybudget | Getrouwheid |
|---|---|---|
| Willekeurig bevragen | Hoog (miljoenen) | Laag |
| Active learning | Gemiddeld (duizenden) | Gemiddeld |
| Distillatie | Gemiddeld | Gemiddeld-hoog |
| API-gebaseerde extractie | Afhankelijk van rate limits | Wisselend |
4. Inferentie-aanvallen (privacy)
Het achterhalen van privé-informatie over de trainingsdata of individuele datapunten.
| Aanval | Wat het onthult | Relevantie voor LLM's |
|---|---|---|
| Membership inference | Of een specifieke record in de trainingsdata zat | Detecteren of privétekst voor training is gebruikt |
| Modelinversie | Trainingsdata reconstrueren vanuit het model | Onthouden PII, code of geheimen achterhalen |
| Attribuut-inferentie | Gevoelige attributen over de personen in de trainingsdata afleiden | Demografische gegevens afleiden uit modelgedrag |
Verstoringsaanvallen: de basis
Het concept van adversarial verstoringen staat centraal in adversarial ML.
Hoe verstoringen werken
Een verstoring is een kleine wijziging in een input die (idealiter) onmerkbaar is voor mensen, maar het model ertoe brengt een andere output te produceren:
x' = x + δ where ||δ|| ≤ ε
x = original input
x' = adversarial input
δ = perturbation (small change)
ε = perturbation budget (maximum allowed change)
Van afbeeldingen naar tekst
Verstoringen in de beeldruimte zijn continu (pixelwaarden aanpassen). In tekst moeten verstoringen discreet zijn (woorden of tokens veranderen), wat andere uitdagingen oplevert:
| Domein | Type verstoring | Beperking | Uitdaging |
|---|---|---|---|
| Afbeeldingen | Wijzigingen van pixelwaarden | L∞- of L2-norm ≤ ε | Wijzigingen moeten onmerkbaar zijn |
| Tekst | Woord-/tokenvervanging | Semantische gelijkwaardigheid | Moet betekenis en grammatica behouden |
| LLM-prompts | Wijzigingen in tokenreeks | Taakspecifiek | Moet het aanvalsdoel bereiken |
Robuustheid: het verdedigingsperspectief
Robuustheid meet hoe goed een model bestand is tegen adversarial input.
| Type robuustheid | Definitie | Meting |
|---|---|---|
| Empirische robuustheid | Weerstand tegen bekende aanvalsmethoden | Slagingspercentage van aanvallen |
| Gecertificeerde robuustheid | Wiskundig bewezen grenzen voor de tolerantie tegen verstoringen | Formele verificatie |
| Distributionele robuustheid | Prestaties op out-of-distribution-input | OOD-benchmarks |
De afweging tussen robuustheid en nauwkeurigheid
Een algemeen erkende bevinding: modellen robuuster maken tegen adversarial voorbeelden verlaagt doorgaans hun nauwkeurigheid op schone input. Voor LLM's uit zich dit als:
- Modellen die zeer goed bestand zijn tegen jailbreaks weigeren mogelijk ook legitieme verzoeken (over-refusal)
- Modellen die zeer behulpzaam en flexibel zijn, zijn doorgaans makkelijker te jailbreaken
- De juiste balans vinden is een voortdurende uitdaging zonder perfecte oplossing
De brug naar LLM-aanvallen
Klassieke concepten uit adversarial ML laten zich rechtstreeks vertalen naar LLM-aanvalstechnieken:
| Klassiek concept | LLM-equivalent | Belangrijkste verschil |
|---|---|---|
| Adversarial voorbeelden | Jailbreak-prompts | Tekst is discreet, niet continu |
| Verstoringsbudget | Beperking op de natuurlijkheid van prompts | Moet leesbaar blijven |
| Gerichte aanval | Het model naar een specifieke output sturen | Doel is gedragsmatig, niet classificerend |
| Universele verstoring | Universele jailbreak-suffixen | Werkt over meerdere inputs heen |
| Overdraagbaarheid | Cross-model jailbreaks | Aanvallen voor het ene model kunnen op andere werken |
| Adversarial training | RLHF-veiligheidstraining | Trainen op adversarial voorbeelden om weerstand op te bouwen |
Gerelateerde onderwerpen
- Gradient-gebaseerde aanvallen uitgelegd — de wiskundige gereedschappen om adversarial input te maken
- AI-dreigingsmodellen — toegangsniveaus en mogelijkheden die de haalbaarheid van aanvallen bepalen
- Pre-training → fine-tuning → RLHF-pijplijn — waar poisoning-aanvallen het trainingsproces aanvallen
- Tokenisatie & de beveiligingsimplicaties ervan — hoe discrete tekstverstoringen interageren met tokenisatie
Referenties
- "Intriguing Properties of Neural Networks" - Szegedy et al. (2013) - Het baanbrekende paper dat adversarial voorbeelden in neurale netwerken ontdekte
- "Explaining and Harnessing Adversarial Examples" - Goodfellow et al. (2014) - Het paper dat FGSM en de lineaire hypothese voor adversarial kwetsbaarheid introduceerde
- "Towards Deep Learning Models Resistant to Adversarial Attacks" - Madry et al. (2017) - Het PGD-aanvalspaper dat de benchmark voor het evalueren van adversarial robuustheid vastlegde
- "Universal and Transferable Adversarial Attacks on Aligned Language Models" - Zou et al. (2023) - Het GCG-paper dat klassieke adversarial ML verbindt met het jailbreaken van LLM's
- "Taxonomy of Machine Learning Safety" - Goldblum et al. (2023) - Uitgebreide classificatie van ML-veiligheidsdreigingen, inclusief adversarial aanvallen over verschillende modaliteiten
Wat is het belangrijkste verschil tussen evasion-aanvallen en poisoning-aanvallen?