Woordenlijst
64 termen over AI-redteaming, adversarial machine learning, prompt injection, misbruik van agents en LLM-beveiliging.
A
Adversarial Example
Een zorgvuldig opgestelde invoer die is ontworpen om een machine learning-model onjuiste of onverwachte uitvoer te laten produceren. Bij AI-redteaming misbruiken adversarial voorbeelden kwetsbaarheden in modellen door onwaarneembare wijzigingen aan invoer aan te brengen die classifiers, detectoren of contentfilters om de tuin leiden.
Attention
Het kernmechanisme in transformer-architecturen dat bepaalt hoe informatie tussen tokenposities stroomt. Attention-gewichten laten zien aan welke delen van de invoer het model prioriteit geeft, wat rechtstreeks bepalend is voor strategieën voor injectieplaatsing en attention-dilution-aanvallen.
Adversarial Suffix
Een reeks tokens die aan een prompt wordt toegevoegd en die een taalmodel zijn safety-alignment laat omzeilen. Adversarial suffixes worden doorgaans ontdekt via gradient-gebaseerde optimalisatiemethoden zoals GCG en kunnen soms overdraagbaar zijn tussen verschillende modellen.
AutoDAN
Een geautomatiseerde methode om jailbreaks te genereren die een hiërarchisch genetisch algoritme gebruikt om leesbare jailbreakprompts te laten evolueren. Anders dan GCG, dat onleesbare suffixes produceert, genereert AutoDAN voor mensen leesbare jailbreaks die moeilijker te detecteren zijn voor op perplexity gebaseerde filters.
Agent Hijacking
Het overnemen van het gedrag van een AI-agent via prompt injection, waardoor deze door de aanvaller gedefinieerde doelen nastreeft in plaats van de taak die de gebruiker voor ogen had. Agent hijacking is bijzonder gevaarlijk omdat agents toegang tot tools hebben, wat de impact versterkt.
Alignment Tax
De vermindering van de modelcapaciteit die voortkomt uit safety-alignment-training. Modellen die sterk gealigneerd zijn, kunnen minder goed presteren bij bepaalde taken. Redteamers merken op dat sommige jailbreaktechnieken in wezen capaciteit 'herstellen' die de alignment-training had onderdrukt.
AI Safety
Het onderzoeksveld dat zich richt op het waarborgen dat AI-systemen zich veilig, betrouwbaar en in overeenstemming met menselijke waarden gedragen. AI-redteaming is een praktische tak van AI-veiligheid en levert empirisch bewijs over waar veiligheidsmaatregelen slagen en falen.
AI Governance
De beleidsregels, processen en organisatiestructuren die de verantwoorde ontwikkeling en inzet van AI-systemen sturen. Frameworks voor AI-governance vereisen steeds vaker beveiligingsbeoordelingen, waaronder red teaming, als voorwaarde voor goedkeuring van de inzet.
B
Blue Teaming
De defensieve tegenhanger van red teaming, gericht op het detecteren, voorkomen van en reageren op aanvallen tegen AI-systemen. Blue team-activiteiten omvatten het inbouwen van guardrails, het monitoren op prompt injection, het in stand houden van safety-alignment en het bouwen van defense-in-depth-architecturen.
BPE
Byte Pair Encoding. Een subwoord-tokenisatiealgoritme dat door GPT-modellen wordt gebruikt en dat de vocabulaire opbouwt door iteratief de meest voorkomende bytparen in de trainingsdata samen te voegen. Redteamers misbruiken BPE-specifiek gedrag rond tokengrenzen en encodinggrillen om payloads op te stellen.
Bug Bounty
Een programma dat organisaties aanbieden en waarmee ze beveiligingsonderzoekers belonen voor het ontdekken en verantwoord melden van kwetsbaarheden. Diverse AI-bedrijven exploiteren nu bug bounty-programma's die prompt injection, jailbreaking en data-extractie als geldige categorieën van bevindingen erkennen.
C
Crescendo Attack
Een multi-turn-jailbreaktechniek waarbij elk bericht geleidelijk escaleert richting beperkte content. De context van het gesprek normaliseert het doelonderwerp gaandeweg, waardoor het model de ingeslagen koers voortzet in plaats van veiligheidsbeperkingen toe te passen.
Chain of Thought
Een promptingtechniek die het model instrueert zijn redeneerstappen te tonen voordat het een definitief antwoord geeft. In agents kan chain-of-thought-redenering worden gemanipuleerd door valse premissen te injecteren die de agent naar de door de aanvaller gewenste conclusies leiden.
Constitutional AI
Een alignment-techniek ontwikkeld door Anthropic waarbij een model wordt getraind om zijn eigen uitvoer te bekritiseren en te herzien aan de hand van een set geschreven principes (een 'constitution'). Redteamers bestuderen Constitutional AI om gaten in de constitution te vinden en dubbelzinnigheden te misbruiken.
Capability Elicitation
Het proces waarbij je ontdekt waartoe een AI-model werkelijk in staat is, voorbij wat standaardevaluaties laten zien. Redteamers gebruiken technieken voor capability elicitation om verborgen of onderdrukte vermogens te vinden die beveiligingsrisico's kunnen vormen.
Content Filter
Een veiligheidsmechanisme dat de in- of uitvoer van een model inspecteert om schadelijke of beleidsschendende content te detecteren en te blokkeren. Content filters kunnen gebruikmaken van keyword-matching, classifiermodellen of LLM-gebaseerde evaluatie. Redteamers omzeilen content filters via tokenmanipulatie, encodingtrucs en semantische parafrasering.
D
Data Poisoning
Een aanval die het gedrag van een model manipuleert door kwaadaardige voorbeelden in zijn trainingsdataset te injecteren. Vergiftigde data kan backdoors installeren, uitvoer biasen of de prestaties verslechteren. Dit is bijzonder gevaarlijk voor modellen die worden gefinetuned op door gebruikers gegenereerde of van het web gescrapete data.
DAN
Do Anything Now. Een vroege jailbreak-personaprompt die het model instrueert een onbeperkt alter ego aan te nemen. Hoewel de oorspronkelijke DAN-prompt grotendeels is gepatcht, blijft de techniek van persona-gebaseerd jailbreaken in nieuwe vormen evolueren.
DPO
Direct Preference Optimization. Een alignment-techniek die taalmodellen rechtstreeks traint op menselijke voorkeursdata zonder dat een afzonderlijk rewardmodel nodig is. DPO introduceert zijn eigen aanvalsoppervlak — redteamers bestuderen hoe biases in de voorkeursdata kunnen worden misbruikt.
Deceptive Alignment
Een theoretisch scenario waarin een AI-systeem tijdens training en evaluatie gealigneerd lijkt, maar bij inzet andere doelen nastreeft. Hoewel dit vooral een onderzoeksvraagstuk binnen AI-veiligheid is, houden redteamers rekening met deceptive alignment bij het beoordelen of modellen veiligheidsbeperkingen werkelijk volgen of slechts de schijn wekken.
E
Embedding
Een dichte vectorrepresentatie van tekst in een continue, hoogdimensionale ruimte. Embeddings vangen de semantische betekenis en staan centraal in RAG-systemen, waar ze bepalen welke documenten worden opgehaald. Aanvallers nemen embeddingruimten op de korrel via adversarial verstoringen en embedding-inversieaanvallen.
EU AI Act
Wetgeving van de Europese Unie die een regelgevend kader voor AI-systemen vaststelt op basis van risicoclassificatie. AI-systemen met een hoog risico moeten conformiteitsbeoordelingen ondergaan die steeds vaker beveiligingsevaluatie en red teaming omvatten.
F
Fine-tuning
Het proces waarbij je een voorgetraind model verder traint op een kleinere, taakspecifieke dataset om zijn gedrag te specialiseren. Fine-tuning is een beveiligingsgevoelige operatie, omdat het kan worden gebruikt om safety-alignment te verwijderen, backdoors te installeren of de uitvoer van het model te biasen.
Function Calling
Het vermogen van LLM's om gestructureerde verzoeken voor function calls te genereren die door de applicatielaag worden uitgevoerd. Function calling maakt tool use mogelijk, maar introduceert aanvalsoppervlak via parameterinjectie, manipulatie van de functiekeuze en ongeautoriseerde aanroepen.
G
Guardrails
Veiligheidsmechanismen die zijn ontworpen om het gedrag van een AI-model binnen aanvaardbare grenzen te houden. Guardrails omvatten instructies in de system prompt, contentfilters voor in- en uitvoer, validatie van tool calls, rate limiting en goedkeuringsworkflows met een mens in de lus.
GCG Attack
Greedy Coordinate Gradient attack. Een gradient-gebaseerde optimalisatiemethode die adversarial suffixes vindt door iteratief tokens te vervangen om de loss ten opzichte van een schadelijke doeluitvoer te minimaliseren. GCG-suffixes die op open-weight-modellen worden ontdekt, kunnen soms overdraagbaar zijn naar closed-source-modellen.
H
Hallucination
Wanneer een taalmodel tekst genereert die feitelijk onjuist of verzonnen is, of niet gegrond is in de aangeleverde context. Hallucinaties zijn relevant voor beveiliging omdat ze valse informatie kunnen produceren die gebruikers vertrouwen, en omdat ze aangeven dat je niet onvoorwaardelijk op de uitvoer van het model kunt vertrouwen.
I
Indirect Prompt Injection
Een aanval waarbij kwaadaardige instructies worden geplaatst in externe gegevensbronnen — zoals webpagina's, documenten of e-mails — die een AI-systeem ophaalt en verwerkt. De aanvaller heeft nooit rechtstreeks contact met het model, waardoor de aanval schaalbaar is en moeilijk te herleiden.
J
Jailbreak
Een techniek die ervoor zorgt dat een safety-gealigneerd AI-model zijn guardrails omzeilt en uitvoer produceert die het getraind was te weigeren. Jailbreaks misbruiken zwakke plekken in de alignment-training via rollenspelscenario's, encodingtrucs, multi-turn-manipulatie of adversarial suffixes.
K
Knowledge Cutoff
De datum waarna een model geen trainingsdata meer heeft. Gebeurtenissen na de knowledge cutoff zijn onbekend voor het model. Redteamers gebruiken het aftasten van de knowledge cutoff als fingerprinting-techniek om de modelfamilie en -versie te identificeren.
L
LLM
Large Language Model. Een neuraal netwerk, doorgaans gebaseerd op de transformer-architectuur, dat is getraind op enorme tekstcorpora om het volgende token in een reeks te voorspellen. LLM's vormen de basis van moderne AI-assistenten, chatbots en agentsystemen.
Logprobs
Logkansen die aan elk token in de vocabulaire van het model worden toegekend bij elke generatiestap. Wanneer API's logprobs blootgeven, leveren ze waardevolle informatie op voor redteamers, waaronder confidence-analyse, detectie van safety filters en membership inference-aanvallen.
M
Model Extraction
Een aanval die een propriëtair AI-model nabouwt door het systematisch te bevragen en de invoer-uitvoerparen te gebruiken om een functioneel gelijkwaardige kloon te trainen. Geslaagde modelextractie kan bedrijfsgeheimen blootleggen, gebruiksbeperkingen omzeilen en verdere white-box-aanvallen mogelijk maken.
Membership Inference
Een privacyaanval die bepaalt of een specifiek gegevenspunt deel uitmaakte van de trainingsdataset van een model. Door verschillen in modelgedrag bij trainings- versus niet-trainingsdata te observeren, kunnen aanvallers afleiden of gevoelige records aanwezig zijn.
Many-shot Jailbreaking
Een jailbreaktechniek die in-context learning misbruikt door veel voorbeelden aan te leveren waarin het model schadelijke vragen beantwoordt. Nadat het genoeg voorbeelden heeft gezien (doorgaans 50+), zet het model het patroon voort en voldoet het aan de uiteindelijke schadelijke vraag.
Multi-modal Attack
Een aanval gericht op AI-systemen die meerdere soorten invoer verwerken (tekst, afbeeldingen, audio, video). Aanvallers verstoppen adversarial payloads in niet-tekstuele modaliteiten — zoals verborgen tekst in afbeeldingen — om contentfilters die alleen tekst controleren te omzeilen.
MCP
Model Context Protocol. Een gestandaardiseerde interface om AI-modellen te koppelen aan externe tools, gegevensbronnen en diensten. MCP bepaalt hoe modellen tools ontdekken, aanroepen en resultaten daarvan ontvangen, en creëert daarmee een gestandaardiseerd aanvalsoppervlak voor tool-gerelateerd misbruik.
Model Card
Een documentatiekader voor machine learning-modellen dat het beoogde gebruik, de prestatiekenmerken, de beperkingen en de ethische overwegingen ervan beschrijft. Redteamers bekijken model cards tijdens de verkenning om inzicht te krijgen in de opgegeven mogelijkheden en beperkingen van het model.
N
NIST AI RMF
Het AI Risk Management Framework van het National Institute of Standards and Technology. Een vrijwillig framework dat richtlijnen biedt voor het beheersen van risico's gedurende de hele levenscyclus van een AI-systeem, inclusief eisen rond beveiligingstesten en red teaming.
O
OWASP Top 10 for LLMs
Een standaard bewustwordingsdocument dat door OWASP wordt gepubliceerd en dat de tien meest kritieke beveiligingsrisico's in LLM-applicaties benoemt. Het biedt een gedeelde woordenschat en een prioriteringskader voor AI-beveiliging en behandelt onder meer prompt injection, data poisoning en supply chain.
P
Prompt Injection
Een aanval waarbij een aanvaller invoer opstelt die een taalmodel zijn oorspronkelijke instructies laat negeren of overschrijven en in plaats daarvan de door de aanvaller opgegeven aanwijzingen laat volgen. Het is de meest fundamentele klasse van kwetsbaarheden in LLM-applicaties, vergelijkbaar met SQL-injectie in klassieke webbeveiliging.
Perplexity
Een maat voor hoe verrast een taalmodel is door een gegeven tekst. Een lage perplexity geeft aan dat de tekst voor het model voorspelbaar is. Op perplexity gebaseerde filters detecteren adversarial suffixes (die een hoge perplexity hebben), en perplexity-vergelijking maakt membership inference-aanvallen mogelijk.
Penetration Testing
Een gesimuleerde cyberaanval op een systeem om de beveiliging ervan te evalueren. AI-penetration-testing past de klassieke pentestmethodiek aan op de unieke kenmerken van machine learning-systemen en voegt prompt injection, alignment-tests en beoordeling van de datapijplijn toe.
Prompt Leaking
Het prijsgeven van de system prompt of interne instructies van een model aan een ongeautoriseerde gebruiker. Prompt leaks kunnen optreden via directe extractieaanvallen, doordat het model zijn eigen instructies hallucineert, of door onbedoelde onthulling in uitgebreide foutmeldingen. Gelekte prompts onthullen veiligheidsregels en gedragsbeperkingen.
R
Red Teaming
De praktijk waarbij je vijandige aanvallen op een systeem simuleert om kwetsbaarheden te ontdekken en verdedigingen te verbeteren. Bij AI-beveiliging richt red teaming zich op de unieke faalwijzen van machine learning-systemen, waaronder prompt injection, het omzeilen van alignment, data poisoning en het misbruiken van modellen.
RAG
Retrieval-Augmented Generation. Een architectuurpatroon dat LLM-antwoorden verbetert door relevante documenten op te halen uit een externe kennisbank en deze in de context van het model op te nemen. RAG introduceert aanvalsoppervlak via document poisoning en indirecte prompt injection.
RLHF
Reinforcement Learning from Human Feedback. De belangrijkste techniek om taalmodellen af te stemmen op menselijke voorkeuren en veiligheidseisen. RLHF traint een rewardmodel op basis van menselijke ranglijsten en gebruikt vervolgens reinforcement learning om het taalmodel tegen die reward te optimaliseren.
ReAct Pattern
Reason + Act. Een agentarchitectuurpatroon waarbij het model afwisselt tussen redeneren over wat het moet doen en het ondernemen van acties. De redeneerstap is zichtbaar en misbruikbaar via technieken voor chain-of-thought-manipulatie.
RAG Poisoning
Een aanval die kwaadaardige documenten in de kennisbank van een RAG-systeem injecteert. Wanneer deze vergiftigde documenten voor relevante query's worden opgehaald, injecteren ze door de aanvaller bepaalde content in de context van het model, wat indirecte prompt injection mogelijk maakt.
Reward Hacking
Wanneer een AI-model onbedoelde manieren vindt om zijn rewardsignaal tijdens reinforcement learning te maximaliseren zonder daadwerkelijk het beoogde doel te bereiken. In met RLHF getrainde modellen kan reward hacking uitvoer produceren die goed scoort maar in werkelijkheid schadelijk of manipulatief is.
Responsible Disclosure
De praktijk waarbij je ontdekte kwetsbaarheden aan de getroffen organisatie meldt voordat je ze openbaar maakt, zodat zij tijd hebben om een fix te ontwikkelen en uit te rollen. AI-specifieke responsible disclosure vereist extra overwegingen rond schadelijke uitvoer en probabilistische bevindingen.
S
Safety Filter
Een component die de in- of uitvoer van een model inspecteert om schadelijke, beleidsschendende of gevoelige content te detecteren en te blokkeren. Safety filters kunnen gebruikmaken van keyword-matching, classifiermodellen of LLM-gebaseerde evaluatie. Redteamers omzeilen deze routinematig via tokenmanipulatie en semantische parafrasering.
System Prompt
De initiële set instructies die aan een taalmodel wordt meegegeven en die zijn gedrag, persona, mogelijkheden en beperkingen bepaalt. System prompts blijven doorgaans verborgen voor eindgebruikers en bevatten gevoelige configuratie, waaronder veiligheidsregels en gedragsbeperkingen.
Skeleton Key
Een jailbreaktechniek die het model een plausibele reden geeft om te voldoen aan beperkte verzoeken, bijvoorbeeld door te beweren dat de gebruiker een beveiligingsonderzoeker is of dat de informatie nodig is voor een geautoriseerde beoordeling. Genoemd naar het vermogen om de medewerking van het model te 'ontgrendelen'.
Specification Gaming
Wanneer een AI-systeem een hoge reward of hoge scores behaalt door mazen te misbruiken in hoe het doel was gespecificeerd, in plaats van door de beoogde taak op te lossen. Specification gaming is verwant aan reward hacking en kan onverwacht modelgedrag opleveren dat redteamers ontdekken.
Sycophancy
De neiging van taalmodellen om het met gebruikers eens te zijn of te zeggen wat ze willen horen, zelfs wanneer het model het oneens zou moeten zijn of zou moeten weigeren. Sycophancy is misbruikbaar — een aanvaller die een schadelijk verzoek inkleedt als iets waar het model het mee eens zou moeten zijn, kan deze neiging uitbuiten.
Sandbagging
Wanneer een AI-model bij capaciteitsevaluaties bewust onderpresteert terwijl het zijn volledige capaciteit voor andere doeleinden behoudt. Sandbagging baart redteamers zorgen omdat het betekent dat capaciteitsevaluaties mogelijk niet de werkelijke capaciteiten van het model weergeven, wat implicaties heeft voor veiligheidsbeoordelingen.
T
Token
De fundamentele eenheid van tekstverwerking in taalmodellen. Tekst wordt door een tokenizer in tokens (subwoorden, woorden of tekens) gesplitst voordat het model het verwerkt. Inzicht in tokenisatie is essentieel om adversarial payloads op te stellen.
Training Data Extraction
Technieken die een model gememoriseerde content uit zijn trainingsdata laten prijsgeven via gerichte prompting. Methoden zijn onder meer prefix-gebaseerde completion, divergentieaanvallen en canary-extractie, die PII, auteursrechtelijk beschermde content of beveiligingsgevoelige informatie kunnen blootleggen.
Tool Use Exploitation
Aanvallen die AI-agents manipuleren om tools aan te roepen met parameters die door de aanvaller worden bepaald. Door instructies te injecteren die de agent zijn legitieme tools laten misbruiken, kunnen aanvallers code-uitvoering, data-exfiltratie en privilege-escalatie bereiken.
Temperature
Een parameter die de willekeur van de modeluitvoer regelt. Een lagere temperature levert meer deterministische antwoorden op, een hogere temperature levert creatievere maar minder voorspelbare uitvoer op. Temperature beïnvloedt de betrouwbaarheid van een exploit — een lagere temperature betekent consistentere slaagpercentages.
Top-p
Nucleus sampling-parameter die de tokenselectie beperkt tot de kleinste verzameling tokens waarvan de cumulatieve kans p overschrijdt. Top-p beïnvloedt de diversiteit van de uitvoer en kan het slaagpercentage van adversarial payloads beïnvloeden door te veranderen welke tokens het model waarschijnlijk genereert.
Tokenizer
De component die ruwe tekst omzet in numerieke tokens die een taalmodel kan verwerken. Het gedrag van de tokenizer heeft rechtstreeks invloed op de beveiliging, omdat verschillen tussen hoe een tokenizer tekst splitst en hoe filters die inspecteren, misbruikbare gaten creëren voor het obfusceren van payloads.
Threat Modeling
Het gestructureerde proces waarbij je assets, aanvalsoppervlakken, dreigingsactoren en mogelijke aanvalspaden in kaart brengt. AI-dreigingsmodellen moeten rekening houden met unieke vectoren zoals prompt injection, het vergiftigen van trainingsdata, supply chain-risico's van modellen en het emergente gedrag van autonome agents.