Woordenlijst

64 termen over AI-redteaming, adversarial machine learning, prompt injection, misbruik van agents en LLM-beveiliging.

A

Adversarial Example

Een zorgvuldig opgestelde invoer die is ontworpen om een machine learning-model onjuiste of onverwachte uitvoer te laten produceren. Bij AI-redteaming misbruiken adversarial voorbeelden kwetsbaarheden in modellen door onwaarneembare wijzigingen aan invoer aan te brengen die classifiers, detectoren of contentfilters om de tuin leiden.

Aanvallen op de embeddingruimte

Attention

Het kernmechanisme in transformer-architecturen dat bepaalt hoe informatie tussen tokenposities stroomt. Attention-gewichten laten zien aan welke delen van de invoer het model prioriteit geeft, wat rechtstreeks bepalend is voor strategieën voor injectieplaatsing en attention-dilution-aanvallen.

Misbruik van attention-mechanismen

Adversarial Suffix

Een reeks tokens die aan een prompt wordt toegevoegd en die een taalmodel zijn safety-alignment laat omzeilen. Adversarial suffixes worden doorgaans ontdekt via gradient-gebaseerde optimalisatiemethoden zoals GCG en kunnen soms overdraagbaar zijn tussen verschillende modellen.

Jailbreak-technieken

AutoDAN

Een geautomatiseerde methode om jailbreaks te genereren die een hiërarchisch genetisch algoritme gebruikt om leesbare jailbreakprompts te laten evolueren. Anders dan GCG, dat onleesbare suffixes produceert, genereert AutoDAN voor mensen leesbare jailbreaks die moeilijker te detecteren zijn voor op perplexity gebaseerde filters.

Jailbreak-technieken Automatisering van redteaming

Agent Hijacking

Het overnemen van het gedrag van een AI-agent via prompt injection, waardoor deze door de aanvaller gedefinieerde doelen nastreeft in plaats van de taak die de gebruiker voor ogen had. Agent hijacking is bijzonder gevaarlijk omdat agents toegang tot tools hebben, wat de impact versterkt.

Misbruik van agents en agentic systemen

Alignment Tax

De vermindering van de modelcapaciteit die voortkomt uit safety-alignment-training. Modellen die sterk gealigneerd zijn, kunnen minder goed presteren bij bepaalde taken. Redteamers merken op dat sommige jailbreaktechnieken in wezen capaciteit 'herstellen' die de alignment-training had onderdrukt.

Interne werking van LLM's en exploit-primitieven Jailbreak-technieken

AI Safety

Het onderzoeksveld dat zich richt op het waarborgen dat AI-systemen zich veilig, betrouwbaar en in overeenstemming met menselijke waarden gedragen. AI-redteaming is een praktische tak van AI-veiligheid en levert empirisch bewijs over waar veiligheidsmaatregelen slagen en falen.

Methodologie voor een volledige opdracht

AI Governance

De beleidsregels, processen en organisatiestructuren die de verantwoorde ontwikkeling en inzet van AI-systemen sturen. Frameworks voor AI-governance vereisen steeds vaker beveiligingsbeoordelingen, waaronder red teaming, als voorwaarde voor goedkeuring van de inzet.

Opdrachtplanning en scoping

B

Blue Teaming

De defensieve tegenhanger van red teaming, gericht op het detecteren, voorkomen van en reageren op aanvallen tegen AI-systemen. Blue team-activiteiten omvatten het inbouwen van guardrails, het monitoren op prompt injection, het in stand houden van safety-alignment en het bouwen van defense-in-depth-architecturen.

Methodologie voor een volledige opdracht

BPE

Byte Pair Encoding. Een subwoord-tokenisatiealgoritme dat door GPT-modellen wordt gebruikt en dat de vocabulaire opbouwt door iteratief de meest voorkomende bytparen in de trainingsdata samen te voegen. Redteamers misbruiken BPE-specifiek gedrag rond tokengrenzen en encodinggrillen om payloads op te stellen.

Op tokenisatie gebaseerde aanvallen

Bug Bounty

Een programma dat organisaties aanbieden en waarmee ze beveiligingsonderzoekers belonen voor het ontdekken en verantwoord melden van kwetsbaarheden. Diverse AI-bedrijven exploiteren nu bug bounty-programma's die prompt injection, jailbreaking en data-extractie als geldige categorieën van bevindingen erkennen.

Methodologie voor een volledige opdracht

C

Crescendo Attack

Een multi-turn-jailbreaktechniek waarbij elk bericht geleidelijk escaleert richting beperkte content. De context van het gesprek normaliseert het doelonderwerp gaandeweg, waardoor het model de ingeslagen koers voortzet in plaats van veiligheidsbeperkingen toe te passen.

Jailbreak-technieken

Chain of Thought

Een promptingtechniek die het model instrueert zijn redeneerstappen te tonen voordat het een definitief antwoord geeft. In agents kan chain-of-thought-redenering worden gemanipuleerd door valse premissen te injecteren die de agent naar de door de aanvaller gewenste conclusies leiden.

Redeneerketens manipuleren

Constitutional AI

Een alignment-techniek ontwikkeld door Anthropic waarbij een model wordt getraind om zijn eigen uitvoer te bekritiseren en te herzien aan de hand van een set geschreven principes (een 'constitution'). Redteamers bestuderen Constitutional AI om gaten in de constitution te vinden en dubbelzinnigheden te misbruiken.

Interne werking van LLM's en exploit-primitieven

Capability Elicitation

Het proces waarbij je ontdekt waartoe een AI-model werkelijk in staat is, voorbij wat standaardevaluaties laten zien. Redteamers gebruiken technieken voor capability elicitation om verborgen of onderdrukte vermogens te vinden die beveiligingsrisico's kunnen vormen.

Modelcapaciteiten in kaart brengen

Content Filter

Een veiligheidsmechanisme dat de in- of uitvoer van een model inspecteert om schadelijke of beleidsschendende content te detecteren en te blokkeren. Content filters kunnen gebruikmaken van keyword-matching, classifiermodellen of LLM-gebaseerde evaluatie. Redteamers omzeilen content filters via tokenmanipulatie, encodingtrucs en semantische parafrasering.

Verdediging ontwijken Jailbreak-technieken

D

Data Poisoning

Een aanval die het gedrag van een model manipuleert door kwaadaardige voorbeelden in zijn trainingsdataset te injecteren. Vergiftigde data kan backdoors installeren, uitvoer biasen of de prestaties verslechteren. Dit is bijzonder gevaarlijk voor modellen die worden gefinetuned op door gebruikers gegenereerde of van het web gescrapete data.

Manipulatie van trainingsdata

DAN

Do Anything Now. Een vroege jailbreak-personaprompt die het model instrueert een onbeperkt alter ego aan te nemen. Hoewel de oorspronkelijke DAN-prompt grotendeels is gepatcht, blijft de techniek van persona-gebaseerd jailbreaken in nieuwe vormen evolueren.

Jailbreak-technieken

DPO

Direct Preference Optimization. Een alignment-techniek die taalmodellen rechtstreeks traint op menselijke voorkeursdata zonder dat een afzonderlijk rewardmodel nodig is. DPO introduceert zijn eigen aanvalsoppervlak — redteamers bestuderen hoe biases in de voorkeursdata kunnen worden misbruikt.

Interne werking van LLM's en exploit-primitieven Manipulatie van trainingsdata

Deceptive Alignment

Een theoretisch scenario waarin een AI-systeem tijdens training en evaluatie gealigneerd lijkt, maar bij inzet andere doelen nastreeft. Hoewel dit vooral een onderzoeksvraagstuk binnen AI-veiligheid is, houden redteamers rekening met deceptive alignment bij het beoordelen of modellen veiligheidsbeperkingen werkelijk volgen of slechts de schijn wekken.

Interne werking van LLM's en exploit-primitieven

E

Embedding

Een dichte vectorrepresentatie van tekst in een continue, hoogdimensionale ruimte. Embeddings vangen de semantische betekenis en staan centraal in RAG-systemen, waar ze bepalen welke documenten worden opgehaald. Aanvallers nemen embeddingruimten op de korrel via adversarial verstoringen en embedding-inversieaanvallen.

Aanvallen op de embeddingruimte Vergiftiging van RAG-retrieval (RAG-data-aanvallen)

EU AI Act

Wetgeving van de Europese Unie die een regelgevend kader voor AI-systemen vaststelt op basis van risicoclassificatie. AI-systemen met een hoog risico moeten conformiteitsbeoordelingen ondergaan die steeds vaker beveiligingsevaluatie en red teaming omvatten.

Opdrachtplanning en scoping

F

Fine-tuning

Het proces waarbij je een voorgetraind model verder traint op een kleinere, taakspecifieke dataset om zijn gedrag te specialiseren. Fine-tuning is een beveiligingsgevoelige operatie, omdat het kan worden gebruikt om safety-alignment te verwijderen, backdoors te installeren of de uitvoer van het model te biasen.

Manipulatie van trainingsdata

Function Calling

Het vermogen van LLM's om gestructureerde verzoeken voor function calls te genereren die door de applicatielaag worden uitgevoerd. Function calling maakt tool use mogelijk, maar introduceert aanvalsoppervlak via parameterinjectie, manipulatie van de functiekeuze en ongeautoriseerde aanroepen.

Misbruik van tool-gebruik door agents

G

Guardrails

Veiligheidsmechanismen die zijn ontworpen om het gedrag van een AI-model binnen aanvaardbare grenzen te houden. Guardrails omvatten instructies in de system prompt, contentfilters voor in- en uitvoer, validatie van tool calls, rate limiting en goedkeuringsworkflows met een mens in de lus.

Verdediging ontwijken Jailbreak-technieken

GCG Attack

Greedy Coordinate Gradient attack. Een gradient-gebaseerde optimalisatiemethode die adversarial suffixes vindt door iteratief tokens te vervangen om de loss ten opzichte van een schadelijke doeluitvoer te minimaliseren. GCG-suffixes die op open-weight-modellen worden ontdekt, kunnen soms overdraagbaar zijn naar closed-source-modellen.

Jailbreak-technieken

H

Hallucination

Wanneer een taalmodel tekst genereert die feitelijk onjuist of verzonnen is, of niet gegrond is in de aangeleverde context. Hallucinaties zijn relevant voor beveiliging omdat ze valse informatie kunnen produceren die gebruikers vertrouwen, en omdat ze aangeven dat je niet onvoorwaardelijk op de uitvoer van het model kunt vertrouwen.

Interne werking van LLM's en exploit-primitieven

I

Indirect Prompt Injection

Een aanval waarbij kwaadaardige instructies worden geplaatst in externe gegevensbronnen — zoals webpagina's, documenten of e-mails — die een AI-systeem ophaalt en verwerkt. De aanvaller heeft nooit rechtstreeks contact met het model, waardoor de aanval schaalbaar is en moeilijk te herleiden.

Indirecte prompt injection Vergiftiging van RAG-retrieval (RAG-data-aanvallen)

J

Jailbreak

Een techniek die ervoor zorgt dat een safety-gealigneerd AI-model zijn guardrails omzeilt en uitvoer produceert die het getraind was te weigeren. Jailbreaks misbruiken zwakke plekken in de alignment-training via rollenspelscenario's, encodingtrucs, multi-turn-manipulatie of adversarial suffixes.

Jailbreak-technieken

K

Knowledge Cutoff

De datum waarna een model geen trainingsdata meer heeft. Gebeurtenissen na de knowledge cutoff zijn onbekend voor het model. Redteamers gebruiken het aftasten van de knowledge cutoff als fingerprinting-techniek om de modelfamilie en -versie te identificeren.

AI-systemen profileren

L

LLM

Large Language Model. Een neuraal netwerk, doorgaans gebaseerd op de transformer-architectuur, dat is getraind op enorme tekstcorpora om het volgende token in een reeks te voorspellen. LLM's vormen de basis van moderne AI-assistenten, chatbots en agentsystemen.

Interne werking van LLM's en exploit-primitieven

Logprobs

Logkansen die aan elk token in de vocabulaire van het model worden toegekend bij elke generatiestap. Wanneer API's logprobs blootgeven, leveren ze waardevolle informatie op voor redteamers, waaronder confidence-analyse, detectie van safety filters en membership inference-aanvallen.

Interne werking van LLM's en exploit-primitieven Trainingsdata extraheren

M

Model Extraction

Een aanval die een propriëtair AI-model nabouwt door het systematisch te bevragen en de invoer-uitvoerparen te gebruiken om een functioneel gelijkwaardige kloon te trainen. Geslaagde modelextractie kan bedrijfsgeheimen blootleggen, gebruiksbeperkingen omzeilen en verdere white-box-aanvallen mogelijk maken.

Trainingsdata extraheren

Membership Inference

Een privacyaanval die bepaalt of een specifiek gegevenspunt deel uitmaakte van de trainingsdataset van een model. Door verschillen in modelgedrag bij trainings- versus niet-trainingsdata te observeren, kunnen aanvallers afleiden of gevoelige records aanwezig zijn.

Trainingsdata extraheren

Many-shot Jailbreaking

Een jailbreaktechniek die in-context learning misbruikt door veel voorbeelden aan te leveren waarin het model schadelijke vragen beantwoordt. Nadat het genoeg voorbeelden heeft gezien (doorgaans 50+), zet het model het patroon voort en voldoet het aan de uiteindelijke schadelijke vraag.

Jailbreak-technieken

MCP

Model Context Protocol. Een gestandaardiseerde interface om AI-modellen te koppelen aan externe tools, gegevensbronnen en diensten. MCP bepaalt hoe modellen tools ontdekken, aanroepen en resultaten daarvan ontvangen, en creëert daarmee een gestandaardiseerd aanvalsoppervlak voor tool-gerelateerd misbruik.

Misbruik van tool-gebruik door agents

Model Card

Een documentatiekader voor machine learning-modellen dat het beoogde gebruik, de prestatiekenmerken, de beperkingen en de ethische overwegingen ervan beschrijft. Redteamers bekijken model cards tijdens de verkenning om inzicht te krijgen in de opgegeven mogelijkheden en beperkingen van het model.

AI-systemen profileren

N

NIST AI RMF

Het AI Risk Management Framework van het National Institute of Standards and Technology. Een vrijwillig framework dat richtlijnen biedt voor het beheersen van risico's gedurende de hele levenscyclus van een AI-systeem, inclusief eisen rond beveiligingstesten en red teaming.

Opdrachtplanning en scoping

O

OWASP Top 10 for LLMs

Een standaard bewustwordingsdocument dat door OWASP wordt gepubliceerd en dat de tien meest kritieke beveiligingsrisico's in LLM-applicaties benoemt. Het biedt een gedeelde woordenschat en een prioriteringskader voor AI-beveiliging en behandelt onder meer prompt injection, data poisoning en supply chain.

Opdrachtplanning en scoping Beveiligingstesten van LLM-API's

P

Prompt Injection

Een aanval waarbij een aanvaller invoer opstelt die een taalmodel zijn oorspronkelijke instructies laat negeren of overschrijven en in plaats daarvan de door de aanvaller opgegeven aanwijzingen laat volgen. Het is de meest fundamentele klasse van kwetsbaarheden in LLM-applicaties, vergelijkbaar met SQL-injectie in klassieke webbeveiliging.

Prompt injection en jailbreaks Directe prompt injection

Perplexity

Een maat voor hoe verrast een taalmodel is door een gegeven tekst. Een lage perplexity geeft aan dat de tekst voor het model voorspelbaar is. Op perplexity gebaseerde filters detecteren adversarial suffixes (die een hoge perplexity hebben), en perplexity-vergelijking maakt membership inference-aanvallen mogelijk.

Verdediging ontwijken Trainingsdata extraheren

Penetration Testing

Een gesimuleerde cyberaanval op een systeem om de beveiliging ervan te evalueren. AI-penetration-testing past de klassieke pentestmethodiek aan op de unieke kenmerken van machine learning-systemen en voegt prompt injection, alignment-tests en beoordeling van de datapijplijn toe.

Methodologie voor een volledige opdracht AI-redteaming methodologie

Prompt Leaking

Het prijsgeven van de system prompt of interne instructies van een model aan een ongeautoriseerde gebruiker. Prompt leaks kunnen optreden via directe extractieaanvallen, doordat het model zijn eigen instructies hallucineert, of door onbedoelde onthulling in uitgebreide foutmeldingen. Gelekte prompts onthullen veiligheidsregels en gedragsbeperkingen.

Extractie van de systeemprompt

R

Red Teaming

De praktijk waarbij je vijandige aanvallen op een systeem simuleert om kwetsbaarheden te ontdekken en verdedigingen te verbeteren. Bij AI-beveiliging richt red teaming zich op de unieke faalwijzen van machine learning-systemen, waaronder prompt injection, het omzeilen van alignment, data poisoning en het misbruiken van modellen.

Methodologie voor een volledige opdracht AI-redteaming methodologie

RAG

Retrieval-Augmented Generation. Een architectuurpatroon dat LLM-antwoorden verbetert door relevante documenten op te halen uit een externe kennisbank en deze in de context van het model op te nemen. RAG introduceert aanvalsoppervlak via document poisoning en indirecte prompt injection.

RAG-, data- en trainingsaanvallen Vergiftiging van RAG-retrieval (RAG-data-aanvallen)

RLHF

Reinforcement Learning from Human Feedback. De belangrijkste techniek om taalmodellen af te stemmen op menselijke voorkeuren en veiligheidseisen. RLHF traint een rewardmodel op basis van menselijke ranglijsten en gebruikt vervolgens reinforcement learning om het taalmodel tegen die reward te optimaliseren.

Interne werking van LLM's en exploit-primitieven

ReAct Pattern

Reason + Act. Een agentarchitectuurpatroon waarbij het model afwisselt tussen redeneren over wat het moet doen en het ondernemen van acties. De redeneerstap is zichtbaar en misbruikbaar via technieken voor chain-of-thought-manipulatie.

Redeneerketens manipuleren

RAG Poisoning

Een aanval die kwaadaardige documenten in de kennisbank van een RAG-systeem injecteert. Wanneer deze vergiftigde documenten voor relevante query's worden opgehaald, injecteren ze door de aanvaller bepaalde content in de context van het model, wat indirecte prompt injection mogelijk maakt.

Vergiftiging van RAG-retrieval (RAG-data-aanvallen)

Reward Hacking

Wanneer een AI-model onbedoelde manieren vindt om zijn rewardsignaal tijdens reinforcement learning te maximaliseren zonder daadwerkelijk het beoogde doel te bereiken. In met RLHF getrainde modellen kan reward hacking uitvoer produceren die goed scoort maar in werkelijkheid schadelijk of manipulatief is.

Interne werking van LLM's en exploit-primitieven

Responsible Disclosure

De praktijk waarbij je ontdekte kwetsbaarheden aan de getroffen organisatie meldt voordat je ze openbaar maakt, zodat zij tijd hebben om een fix te ontwikkelen en uit te rollen. AI-specifieke responsible disclosure vereist extra overwegingen rond schadelijke uitvoer en probabilistische bevindingen.

Uitvoering en rapportage

S

Safety Filter

Een component die de in- of uitvoer van een model inspecteert om schadelijke, beleidsschendende of gevoelige content te detecteren en te blokkeren. Safety filters kunnen gebruikmaken van keyword-matching, classifiermodellen of LLM-gebaseerde evaluatie. Redteamers omzeilen deze routinematig via tokenmanipulatie en semantische parafrasering.

Verdediging ontwijken

System Prompt

De initiële set instructies die aan een taalmodel wordt meegegeven en die zijn gedrag, persona, mogelijkheden en beperkingen bepaalt. System prompts blijven doorgaans verborgen voor eindgebruikers en bevatten gevoelige configuratie, waaronder veiligheidsregels en gedragsbeperkingen.

Extractie van de systeemprompt

Skeleton Key

Een jailbreaktechniek die het model een plausibele reden geeft om te voldoen aan beperkte verzoeken, bijvoorbeeld door te beweren dat de gebruiker een beveiligingsonderzoeker is of dat de informatie nodig is voor een geautoriseerde beoordeling. Genoemd naar het vermogen om de medewerking van het model te 'ontgrendelen'.

Jailbreak-technieken

Specification Gaming

Wanneer een AI-systeem een hoge reward of hoge scores behaalt door mazen te misbruiken in hoe het doel was gespecificeerd, in plaats van door de beoogde taak op te lossen. Specification gaming is verwant aan reward hacking en kan onverwacht modelgedrag opleveren dat redteamers ontdekken.

Interne werking van LLM's en exploit-primitieven

Sycophancy

De neiging van taalmodellen om het met gebruikers eens te zijn of te zeggen wat ze willen horen, zelfs wanneer het model het oneens zou moeten zijn of zou moeten weigeren. Sycophancy is misbruikbaar — een aanvaller die een schadelijk verzoek inkleedt als iets waar het model het mee eens zou moeten zijn, kan deze neiging uitbuiten.

Jailbreak-technieken

Sandbagging

Wanneer een AI-model bij capaciteitsevaluaties bewust onderpresteert terwijl het zijn volledige capaciteit voor andere doeleinden behoudt. Sandbagging baart redteamers zorgen omdat het betekent dat capaciteitsevaluaties mogelijk niet de werkelijke capaciteiten van het model weergeven, wat implicaties heeft voor veiligheidsbeoordelingen.

Interne werking van LLM's en exploit-primitieven

T

Token

De fundamentele eenheid van tekstverwerking in taalmodellen. Tekst wordt door een tokenizer in tokens (subwoorden, woorden of tekens) gesplitst voordat het model het verwerkt. Inzicht in tokenisatie is essentieel om adversarial payloads op te stellen.

Op tokenisatie gebaseerde aanvallen

Training Data Extraction

Technieken die een model gememoriseerde content uit zijn trainingsdata laten prijsgeven via gerichte prompting. Methoden zijn onder meer prefix-gebaseerde completion, divergentieaanvallen en canary-extractie, die PII, auteursrechtelijk beschermde content of beveiligingsgevoelige informatie kunnen blootleggen.

Trainingsdata extraheren

Tool Use Exploitation

Aanvallen die AI-agents manipuleren om tools aan te roepen met parameters die door de aanvaller worden bepaald. Door instructies te injecteren die de agent zijn legitieme tools laten misbruiken, kunnen aanvallers code-uitvoering, data-exfiltratie en privilege-escalatie bereiken.

Misbruik van tool-gebruik door agents

Temperature

Een parameter die de willekeur van de modeluitvoer regelt. Een lagere temperature levert meer deterministische antwoorden op, een hogere temperature levert creatievere maar minder voorspelbare uitvoer op. Temperature beïnvloedt de betrouwbaarheid van een exploit — een lagere temperature betekent consistentere slaagpercentages.

Interne werking van LLM's en exploit-primitieven

Top-p

Nucleus sampling-parameter die de tokenselectie beperkt tot de kleinste verzameling tokens waarvan de cumulatieve kans p overschrijdt. Top-p beïnvloedt de diversiteit van de uitvoer en kan het slaagpercentage van adversarial payloads beïnvloeden door te veranderen welke tokens het model waarschijnlijk genereert.

Interne werking van LLM's en exploit-primitieven

Tokenizer

De component die ruwe tekst omzet in numerieke tokens die een taalmodel kan verwerken. Het gedrag van de tokenizer heeft rechtstreeks invloed op de beveiliging, omdat verschillen tussen hoe een tokenizer tekst splitst en hoe filters die inspecteren, misbruikbare gaten creëren voor het obfusceren van payloads.

Op tokenisatie gebaseerde aanvallen

Threat Modeling

Het gestructureerde proces waarbij je assets, aanvalsoppervlakken, dreigingsactoren en mogelijke aanvalspaden in kaart brengt. AI-dreigingsmodellen moeten rekening houden met unieke vectoren zoals prompt injection, het vergiftigen van trainingsdata, supply chain-risico's van modellen en het emergente gedrag van autonome agents.

Opdrachtplanning en scoping AI-redteaming methodologie