Uitgebreide woordenlijst AI-beveiliging (referenties)

Beginner6 min lezenBijgewerkt op 2026-03-13

Uitgebreide woordenlijst met termen rond AI-redteaming, met aanvalstechnieken, verdedigingsmechanismen, interne werking van modellen en assessmentmethodologie.

glossary reference terminology definitions

A

Adversarial Example -- Een input die specifiek is opgesteld om een machine learning-model een onjuiste voorspelling te laten doen, vaak met een aanpassing aan een onschuldige input die voor mensen nauwelijks waarneembaar is.

Adversarial Suffix -- Een reeks tokens die aan een prompt worden toegevoegd en die gradient-based optimalisatie misbruiken om safety training te omzeilen. Zie: GCG-aanval.

Agent -- Een AI-systeem dat acties in de wereld kan uitvoeren door tools aan te roepen, bestanden te lezen/schrijven of met API's te interacteren, vaak met een LLM als redeneerengine.

Alignment -- Het proces waarbij AI-systemen worden getraind om zich te gedragen volgens menselijke waarden en intenties, typisch via RLHF, DPO of Constitutional AI.

ASR (Attack Success Rate) -- Het percentage aanvalspogingen dat succesvol de safety-mechanismen van een model omzeilt. De belangrijkste kwantitatieve metric in AI-redteaming.

B-C

Blind Injection -- Een prompt injection waarbij de aanvaller de directe output van het model niet kan zien, waardoor side-channel-technieken nodig zijn om succes te bevestigen.

CART (Continuous Automated Red Teaming) -- Een geautomatiseerde pipeline die continu adversarial inputs genereert en test tegen AI-systemen.

Chain-of-Thought (CoT) -- Een prompting-techniek waarbij het model zijn redeneerstappen toont. Kan worden misbruikt via thought injection.

Constitutional AI -- Een alignment-methode waarbij het model zijn eigen output evalueert tegen een set principes en deze vervolgens bijstuurt.

Context Window -- Het maximumaantal tokens dat een model in één inference-call kan verwerken. Stuffing-aanvallen verdunnen safety-instructies in grote contexten.

D-F

Data Exfiltration -- Het onttrekken van vertrouwelijke informatie aan een AI-systeem, waaronder trainingsdata, system prompts of gebruikersdata.

Defense in Depth -- Een beveiligingsstrategie met meerdere onafhankelijke verdedigingslagen, zodat het compromitteren van één laag niet het hele systeem in gevaar brengt.

Direct Injection -- Prompt injection die rechtstreeks door de gebruiker wordt afgeleverd in zijn input naar het AI-systeem.

DPO (Direct Preference Optimization) -- Een alignment-techniek die een model direct optimaliseert op basis van voorkeursdata, zonder een apart reward model te trainen.

Embedding -- Een dichte vectorrepresentatie van tekst (of andere data) in een continue ruimte waarin semantische gelijkenis overeenkomt met geometrische nabijheid.

Few-Shot Jailbreak -- Een jailbreak die voorbeelden geeft van het model dat aan beperkte verzoeken voldoet, om vergelijkbaar gedrag uit te lokken.

Fine-Tuning -- Aanvullende training van een vooraf getraind model op een specifieke dataset, die kan worden misbruikt om safety training te verwijderen of backdoors in te bouwen.

G-I

GCG (Greedy Coordinate Gradient) -- Een algoritme dat adversarial suffixen genereert via gradient-based optimalisatie tegen het safety-gedrag van een model.

Guardrail -- Een safety-mechanisme dat inputs/outputs van AI filtert, aanpast of blokkeert om schadelijk gedrag te voorkomen.

Hallucination -- Wanneer een model met grote zekerheid feitelijk onjuiste informatie genereert.

Indirect Injection -- Prompt injection die wordt afgeleverd via data die het model verwerkt (opgehaalde documenten, tool-outputs, gebruikersprofielen) in plaats van directe gebruikersinvoer.

J-M

Jailbreak -- Een techniek die ervoor zorgt dat een AI-model zijn safety training omzeilt en content genereert die het was getraind te weigeren.

Knowledge Poisoning -- Het injecteren van kwaadaardige content in de kennisbank van een RAG-systeem om toekomstige antwoorden te manipuleren.

LLM Judge -- Het gebruik van één LLM om de output van een andere te beoordelen, vaak ingezet als zowel verdedigingsmechanisme als evaluatiemetric.

MCP (Model Context Protocol) -- Een protocol dat AI-modellen verbindt met externe tools en databronnen. Tool-serverbeveiliging is een belangrijk aanvalsoppervlak.

Membership Inference -- Een aanval die bepaalt of een specifiek datapunt is gebruikt in de trainingsdata van een model.

Model Extraction -- Het repliceren van de functionaliteit van een model door het systematisch te bevragen en een vervangend model te trainen op de input/output-paren.

P-R

PAIR (Prompt Automatic Iterative Refinement) -- Een geautomatiseerde jailbreak-methode waarbij een aanvallende LLM prompts iteratief verfijnt op basis van de antwoorden van het doelmodel.

PII Extraction -- Het onttrekken van persoonlijk identificeerbare informatie die een model uit zijn trainingsdata heeft gememoriseerd.

Prompt Injection -- Een aanval waarbij door de gebruiker aangeleverde input het bedoelde gedrag van de instructies van een AI-systeem overschrijft of aanpast.

RAG (Retrieval-Augmented Generation) -- Een patroon waarbij het antwoord van een LLM wordt aangevuld met informatie die uit een externe kennisbank wordt opgehaald.

Red Teaming -- Adversarial testen van AI-systemen om kwetsbaarheden, safety-fouten en beveiligingszwaktes te identificeren.

Reward Hacking -- Het misbruiken van mazen in een reward model om een hoge beloning te behalen zonder het bedoelde gedrag te vertonen.

RLHF (Reinforcement Learning from Human Feedback) -- Een alignment-techniek die een reward model traint op basis van menselijke voorkeuren en dit gebruikt om het basismodel te fine-tunen.

S-Z

Safety Training -- Het proces om een model te trainen om schadelijke verzoeken te weigeren, typisch via RLHF, DPO of Constitutional AI.

System Prompt -- De initiële instructies aan een LLM die het gedrag, de persona en de beperkingen ervan definiëren. Vaak een doelwit van extractie-aanvallen.

TAP (Tree of Attacks with Pruning) -- Een geautomatiseerde jailbreak-methode die een boom van aanvalsvarianten verkent en mislukte vertakkingen snoeit.

Token Smuggling -- Het gebruik van encoding-, Unicode- of tokenisatietrucs om inputfilters te omzeilen terwijl de semantische betekenis van een aanvalspayload behouden blijft.

Transferable Attack -- Een adversarial input die is opgesteld tegen één model en ook werkt tegen een ander model.

VLM (Vision-Language Model) -- Een model dat zowel afbeeldingen als tekst verwerkt en zo aanvullende aanvalsoppervlakken creëert via visuele input.

Knowledge Check

Wat is het belangrijkste verschil tussen 'direct injection' en 'indirect injection'?

Verwante onderwerpen

Foundations: How LLMs Work - De systemen begrijpen die deze termen beschrijven
AI Red Teaming Cheat Sheet - Snelle referentie voor engagements
OWASP LLM Top 10 Deep Dive - Gestandaardiseerde kwetsbaarheidstaxonomie
MITRE ATLAS Walkthrough - Adversarial ML-dreigingsframework
Framework Mapping Reference - Cross-framework-termmapping

Referenties

NIST AI 100-2e2025 - NIST (2025) - Adversarial machine learning: een taxonomie en terminologie van aanvallen en mitigaties
MITRE ATLAS Terminology - MITRE Corporation (2024) - Gestandaardiseerde adversarial ML-terminologie
OWASP AI Exchange - OWASP (2024) - Door de community onderhouden AI-beveiligingsterminologie en definities

Uitgebreide woordenlijst AI-beveiliging (referenties)

Beginner6 min lezenBijgewerkt op 2026-03-13

Uitgebreide woordenlijst met termen rond AI-redteaming, met aanvalstechnieken, verdedigingsmechanismen, interne werking van modellen en assessmentmethodologie.

glossary reference terminology definitions

A

Adversarial Suffix -- Een reeks tokens die aan een prompt worden toegevoegd en die gradient-based optimalisatie misbruiken om safety training te omzeilen. Zie: GCG-aanval.

Agent -- Een AI-systeem dat acties in de wereld kan uitvoeren door tools aan te roepen, bestanden te lezen/schrijven of met API's te interacteren, vaak met een LLM als redeneerengine.

Alignment -- Het proces waarbij AI-systemen worden getraind om zich te gedragen volgens menselijke waarden en intenties, typisch via RLHF, DPO of Constitutional AI.

ASR (Attack Success Rate) -- Het percentage aanvalspogingen dat succesvol de safety-mechanismen van een model omzeilt. De belangrijkste kwantitatieve metric in AI-redteaming.

B-C

Blind Injection -- Een prompt injection waarbij de aanvaller de directe output van het model niet kan zien, waardoor side-channel-technieken nodig zijn om succes te bevestigen.

CART (Continuous Automated Red Teaming) -- Een geautomatiseerde pipeline die continu adversarial inputs genereert en test tegen AI-systemen.

Chain-of-Thought (CoT) -- Een prompting-techniek waarbij het model zijn redeneerstappen toont. Kan worden misbruikt via thought injection.

Constitutional AI -- Een alignment-methode waarbij het model zijn eigen output evalueert tegen een set principes en deze vervolgens bijstuurt.

Context Window -- Het maximumaantal tokens dat een model in één inference-call kan verwerken. Stuffing-aanvallen verdunnen safety-instructies in grote contexten.

D-F

Data Exfiltration -- Het onttrekken van vertrouwelijke informatie aan een AI-systeem, waaronder trainingsdata, system prompts of gebruikersdata.

Defense in Depth -- Een beveiligingsstrategie met meerdere onafhankelijke verdedigingslagen, zodat het compromitteren van één laag niet het hele systeem in gevaar brengt.

Direct Injection -- Prompt injection die rechtstreeks door de gebruiker wordt afgeleverd in zijn input naar het AI-systeem.

DPO (Direct Preference Optimization) -- Een alignment-techniek die een model direct optimaliseert op basis van voorkeursdata, zonder een apart reward model te trainen.

Embedding -- Een dichte vectorrepresentatie van tekst (of andere data) in een continue ruimte waarin semantische gelijkenis overeenkomt met geometrische nabijheid.

Few-Shot Jailbreak -- Een jailbreak die voorbeelden geeft van het model dat aan beperkte verzoeken voldoet, om vergelijkbaar gedrag uit te lokken.

Fine-Tuning -- Aanvullende training van een vooraf getraind model op een specifieke dataset, die kan worden misbruikt om safety training te verwijderen of backdoors in te bouwen.

G-I

GCG (Greedy Coordinate Gradient) -- Een algoritme dat adversarial suffixen genereert via gradient-based optimalisatie tegen het safety-gedrag van een model.

Guardrail -- Een safety-mechanisme dat inputs/outputs van AI filtert, aanpast of blokkeert om schadelijk gedrag te voorkomen.

Hallucination -- Wanneer een model met grote zekerheid feitelijk onjuiste informatie genereert.

Indirect Injection -- Prompt injection die wordt afgeleverd via data die het model verwerkt (opgehaalde documenten, tool-outputs, gebruikersprofielen) in plaats van directe gebruikersinvoer.

J-M

Jailbreak -- Een techniek die ervoor zorgt dat een AI-model zijn safety training omzeilt en content genereert die het was getraind te weigeren.

Knowledge Poisoning -- Het injecteren van kwaadaardige content in de kennisbank van een RAG-systeem om toekomstige antwoorden te manipuleren.

LLM Judge -- Het gebruik van één LLM om de output van een andere te beoordelen, vaak ingezet als zowel verdedigingsmechanisme als evaluatiemetric.

MCP (Model Context Protocol) -- Een protocol dat AI-modellen verbindt met externe tools en databronnen. Tool-serverbeveiliging is een belangrijk aanvalsoppervlak.

Membership Inference -- Een aanval die bepaalt of een specifiek datapunt is gebruikt in de trainingsdata van een model.

Model Extraction -- Het repliceren van de functionaliteit van een model door het systematisch te bevragen en een vervangend model te trainen op de input/output-paren.

P-R

PAIR (Prompt Automatic Iterative Refinement) -- Een geautomatiseerde jailbreak-methode waarbij een aanvallende LLM prompts iteratief verfijnt op basis van de antwoorden van het doelmodel.

PII Extraction -- Het onttrekken van persoonlijk identificeerbare informatie die een model uit zijn trainingsdata heeft gememoriseerd.

Prompt Injection -- Een aanval waarbij door de gebruiker aangeleverde input het bedoelde gedrag van de instructies van een AI-systeem overschrijft of aanpast.

RAG (Retrieval-Augmented Generation) -- Een patroon waarbij het antwoord van een LLM wordt aangevuld met informatie die uit een externe kennisbank wordt opgehaald.

Red Teaming -- Adversarial testen van AI-systemen om kwetsbaarheden, safety-fouten en beveiligingszwaktes te identificeren.

Reward Hacking -- Het misbruiken van mazen in een reward model om een hoge beloning te behalen zonder het bedoelde gedrag te vertonen.

RLHF (Reinforcement Learning from Human Feedback) -- Een alignment-techniek die een reward model traint op basis van menselijke voorkeuren en dit gebruikt om het basismodel te fine-tunen.

S-Z

Safety Training -- Het proces om een model te trainen om schadelijke verzoeken te weigeren, typisch via RLHF, DPO of Constitutional AI.

System Prompt -- De initiële instructies aan een LLM die het gedrag, de persona en de beperkingen ervan definiëren. Vaak een doelwit van extractie-aanvallen.

TAP (Tree of Attacks with Pruning) -- Een geautomatiseerde jailbreak-methode die een boom van aanvalsvarianten verkent en mislukte vertakkingen snoeit.

Token Smuggling -- Het gebruik van encoding-, Unicode- of tokenisatietrucs om inputfilters te omzeilen terwijl de semantische betekenis van een aanvalspayload behouden blijft.

Transferable Attack -- Een adversarial input die is opgesteld tegen één model en ook werkt tegen een ander model.

VLM (Vision-Language Model) -- Een model dat zowel afbeeldingen als tekst verwerkt en zo aanvullende aanvalsoppervlakken creëert via visuele input.

Knowledge Check

Wat is het belangrijkste verschil tussen 'direct injection' en 'indirect injection'?

Verwante onderwerpen

Foundations: How LLMs Work - De systemen begrijpen die deze termen beschrijven
AI Red Teaming Cheat Sheet - Snelle referentie voor engagements
OWASP LLM Top 10 Deep Dive - Gestandaardiseerde kwetsbaarheidstaxonomie
MITRE ATLAS Walkthrough - Adversarial ML-dreigingsframework
Framework Mapping Reference - Cross-framework-termmapping

Referenties

NIST AI 100-2e2025 - NIST (2025) - Adversarial machine learning: een taxonomie en terminologie van aanvallen en mitigaties
MITRE ATLAS Terminology - MITRE Corporation (2024) - Gestandaardiseerde adversarial ML-terminologie
OWASP AI Exchange - OWASP (2024) - Door de community onderhouden AI-beveiligingsterminologie en definities

Uitgebreide woordenlijst AI-beveiliging (referenties)

Gerelateerde artikelen

Uitgebreide woordenlijst AI-beveiliging (referenties)

Gerelateerde artikelen