Uitgebreide woordenlijst AI-beveiliging (referenties)
Uitgebreide woordenlijst met termen rond AI-redteaming, met aanvalstechnieken, verdedigingsmechanismen, interne werking van modellen en assessmentmethodologie.
A
Adversarial Example -- Een input die specifiek is opgesteld om een machine learning-model een onjuiste voorspelling te laten doen, vaak met een aanpassing aan een onschuldige input die voor mensen nauwelijks waarneembaar is.
Adversarial Suffix -- Een reeks tokens die aan een prompt worden toegevoegd en die gradient-based optimalisatie misbruiken om safety training te omzeilen. Zie: GCG-aanval.
Agent -- Een AI-systeem dat acties in de wereld kan uitvoeren door tools aan te roepen, bestanden te lezen/schrijven of met API's te interacteren, vaak met een LLM als redeneerengine.
Alignment -- Het proces waarbij AI-systemen worden getraind om zich te gedragen volgens menselijke waarden en intenties, typisch via RLHF, DPO of Constitutional AI.
ASR (Attack Success Rate) -- Het percentage aanvalspogingen dat succesvol de safety-mechanismen van een model omzeilt. De belangrijkste kwantitatieve metric in AI-redteaming.
B-C
Blind Injection -- Een prompt injection waarbij de aanvaller de directe output van het model niet kan zien, waardoor side-channel-technieken nodig zijn om succes te bevestigen.
CART (Continuous Automated Red Teaming) -- Een geautomatiseerde pipeline die continu adversarial inputs genereert en test tegen AI-systemen.
Chain-of-Thought (CoT) -- Een prompting-techniek waarbij het model zijn redeneerstappen toont. Kan worden misbruikt via thought injection.
Constitutional AI -- Een alignment-methode waarbij het model zijn eigen output evalueert tegen een set principes en deze vervolgens bijstuurt.
Context Window -- Het maximumaantal tokens dat een model in één inference-call kan verwerken. Stuffing-aanvallen verdunnen safety-instructies in grote contexten.
D-F
Data Exfiltration -- Het onttrekken van vertrouwelijke informatie aan een AI-systeem, waaronder trainingsdata, system prompts of gebruikersdata.
Defense in Depth -- Een beveiligingsstrategie met meerdere onafhankelijke verdedigingslagen, zodat het compromitteren van één laag niet het hele systeem in gevaar brengt.
Direct Injection -- Prompt injection die rechtstreeks door de gebruiker wordt afgeleverd in zijn input naar het AI-systeem.
DPO (Direct Preference Optimization) -- Een alignment-techniek die een model direct optimaliseert op basis van voorkeursdata, zonder een apart reward model te trainen.
Embedding -- Een dichte vectorrepresentatie van tekst (of andere data) in een continue ruimte waarin semantische gelijkenis overeenkomt met geometrische nabijheid.
Few-Shot Jailbreak -- Een jailbreak die voorbeelden geeft van het model dat aan beperkte verzoeken voldoet, om vergelijkbaar gedrag uit te lokken.
Fine-Tuning -- Aanvullende training van een vooraf getraind model op een specifieke dataset, die kan worden misbruikt om safety training te verwijderen of backdoors in te bouwen.
G-I
GCG (Greedy Coordinate Gradient) -- Een algoritme dat adversarial suffixen genereert via gradient-based optimalisatie tegen het safety-gedrag van een model.
Guardrail -- Een safety-mechanisme dat inputs/outputs van AI filtert, aanpast of blokkeert om schadelijk gedrag te voorkomen.
Hallucination -- Wanneer een model met grote zekerheid feitelijk onjuiste informatie genereert.
Indirect Injection -- Prompt injection die wordt afgeleverd via data die het model verwerkt (opgehaalde documenten, tool-outputs, gebruikersprofielen) in plaats van directe gebruikersinvoer.
J-M
Jailbreak -- Een techniek die ervoor zorgt dat een AI-model zijn safety training omzeilt en content genereert die het was getraind te weigeren.
Knowledge Poisoning -- Het injecteren van kwaadaardige content in de kennisbank van een RAG-systeem om toekomstige antwoorden te manipuleren.
LLM Judge -- Het gebruik van één LLM om de output van een andere te beoordelen, vaak ingezet als zowel verdedigingsmechanisme als evaluatiemetric.
MCP (Model Context Protocol) -- Een protocol dat AI-modellen verbindt met externe tools en databronnen. Tool-serverbeveiliging is een belangrijk aanvalsoppervlak.
Membership Inference -- Een aanval die bepaalt of een specifiek datapunt is gebruikt in de trainingsdata van een model.
Model Extraction -- Het repliceren van de functionaliteit van een model door het systematisch te bevragen en een vervangend model te trainen op de input/output-paren.
P-R
PAIR (Prompt Automatic Iterative Refinement) -- Een geautomatiseerde jailbreak-methode waarbij een aanvallende LLM prompts iteratief verfijnt op basis van de antwoorden van het doelmodel.
PII Extraction -- Het onttrekken van persoonlijk identificeerbare informatie die een model uit zijn trainingsdata heeft gememoriseerd.
Prompt Injection -- Een aanval waarbij door de gebruiker aangeleverde input het bedoelde gedrag van de instructies van een AI-systeem overschrijft of aanpast.
RAG (Retrieval-Augmented Generation) -- Een patroon waarbij het antwoord van een LLM wordt aangevuld met informatie die uit een externe kennisbank wordt opgehaald.
Red Teaming -- Adversarial testen van AI-systemen om kwetsbaarheden, safety-fouten en beveiligingszwaktes te identificeren.
Reward Hacking -- Het misbruiken van mazen in een reward model om een hoge beloning te behalen zonder het bedoelde gedrag te vertonen.
RLHF (Reinforcement Learning from Human Feedback) -- Een alignment-techniek die een reward model traint op basis van menselijke voorkeuren en dit gebruikt om het basismodel te fine-tunen.
S-Z
Safety Training -- Het proces om een model te trainen om schadelijke verzoeken te weigeren, typisch via RLHF, DPO of Constitutional AI.
System Prompt -- De initiële instructies aan een LLM die het gedrag, de persona en de beperkingen ervan definiëren. Vaak een doelwit van extractie-aanvallen.
TAP (Tree of Attacks with Pruning) -- Een geautomatiseerde jailbreak-methode die een boom van aanvalsvarianten verkent en mislukte vertakkingen snoeit.
Token Smuggling -- Het gebruik van encoding-, Unicode- of tokenisatietrucs om inputfilters te omzeilen terwijl de semantische betekenis van een aanvalspayload behouden blijft.
Transferable Attack -- Een adversarial input die is opgesteld tegen één model en ook werkt tegen een ander model.
VLM (Vision-Language Model) -- Een model dat zowel afbeeldingen als tekst verwerkt en zo aanvullende aanvalsoppervlakken creëert via visuele input.
Wat is het belangrijkste verschil tussen 'direct injection' en 'indirect injection'?
Verwante onderwerpen
- Foundations: How LLMs Work - De systemen begrijpen die deze termen beschrijven
- AI Red Teaming Cheat Sheet - Snelle referentie voor engagements
- OWASP LLM Top 10 Deep Dive - Gestandaardiseerde kwetsbaarheidstaxonomie
- MITRE ATLAS Walkthrough - Adversarial ML-dreigingsframework
- Framework Mapping Reference - Cross-framework-termmapping
Referenties
- NIST AI 100-2e2025 - NIST (2025) - Adversarial machine learning: een taxonomie en terminologie van aanvallen en mitigaties
- MITRE ATLAS Terminology - MITRE Corporation (2024) - Gestandaardiseerde adversarial ML-terminologie
- OWASP AI Exchange - OWASP (2024) - Door de community onderhouden AI-beveiligingsterminologie en definities