Modeltypes en hun aanvalsoppervlakken

Beginner9 min lezenBijgewerkt op 2026-03-15

Hoe tekst-, vision-, multimodale, embedding- en codegeneratiemodellen elk unieke kwetsbaarheden en aanvalsoppervlakken voor redteamers met zich meebrengen.

model-types attack-surface multimodal code-generation beginner

Waarom het modeltype ertoe doet

Niet alle AI-modellen zijn vanuit beveiligingsoogpunt gelijk. Een tekst-only chatbot, een vision-classifier, een codegeneratietool en een embeddingmodel gebruiken allemaal neurale netwerken, maar hun invoer, uitvoer en faalwijzen verschillen drastisch. Het modeltype begrijpen vertelt je welke aanvallen mogelijk zijn, welke waarschijnlijk slagen en welke irrelevant zijn.

Tekstgeneratiemodellen

Tekstgeneratiemodellen (GPT-4, Claude, Llama, Mistral) accepteren tekstinvoer en produceren tekstuitvoer. Ze zijn het meest voorkomende doelwit voor AI-redteaming.

Aanvalsoppervlak

Vector	Beschrijving	Technieken
Prompt injection	Adversarial instructies in gebruikersinvoer of opgehaalde content	Directe injectie, indirecte injectie, misbruik van de instructiehiërarchie
Jailbreaken	Veiligheidstraining overschrijven om beperkte content te produceren	Rollenspel, encodingtrucs, many-shot, crescendo-aanvallen
Extractie van system prompt	Het model zijn systeeminstructies laten onthullen	Instructieverwarring, rolomkering, meta-prompting
Extractie van trainingsdata	Het model prompten om gememoriseerde trainingsdata te reproduceren	Letterlijke elicitatie, completion-gebaseerde extractie
Outputmanipulatie	Modeluitvoer naar specifieke content sturen	Prefix-injectie, logit-manipulatie (als de API logprobs blootstelt)

Unieke kenmerken

Tekstmodellen worden getraind op tekstdata op internetschaal, wat betekent dat ze een enorme hoeveelheid informatie hebben gememoriseerd — inclusief mogelijk gevoelige, auteursrechtelijk beschermde en persoonlijke data. Hun natuurlijke-taalinterface maakt ze toegankelijk voor aanvallers zonder technische expertise, en hun generieke karakter betekent dat guardrails een enorm scala aan mogelijke schadelijke uitvoer moeten afdekken.

Vision-modellen

Vision-modellen verwerken beelden als invoer. Hieronder vallen beeldclassifiers (ResNet, ViT), object detectors (YOLO) en beeldbegrijpende modellen die tekstuele beschrijvingen van beelden genereren.

Aanvalsoppervlak

Vector	Beschrijving	Technieken
Adversarial verstoring	Onmerkbare pixelwijzigingen die verkeerde classificatie veroorzaken	FGSM, PGD, C&W-aanvallen
Adversarial patches	Zichtbare maar schijnbaar onschuldige beeldpatches die specifiek gedrag uitlokken	Stickers in de fysieke wereld, QR-code-achtige adversarial patches
Typografische aanvallen	Tekst in beelden die het modelgedrag beïnvloedt	Tekst toevoegen aan beelden die vision-language-modellen als instructies verwerken
Steganografische payloads	Verborgen data in beelden die modellen detecteren maar mensen niet	Adversarial content inbedden in beeldmetadata of pixelpatronen
Datavergiftiging	Trainingsbeelden corrumperen om backdoors in te bedden	Trigger-patches die een specifieke classificatie veroorzaken wanneer ze aanwezig zijn

Unieke kenmerken

Vision-modellen werken in een continue invoerruimte (pixelwaarden) in plaats van een discrete (tokens), wat gradient-gebaseerde adversarial verstoringsaanvallen mogelijk maakt die geen directe tegenhanger hebben in tekstmodellen. Ook de toepasbaarheid in de fysieke wereld verschilt — adversarial patches op stopborden of medische beelden kunnen veiligheidskritieke gevolgen hebben.

Multimodale modellen

Multimodale modellen (GPT-4V, Gemini, Claude met vision) accepteren meerdere invoertypen — tekst en beelden, of tekst, beelden en audio. Ze vormen de frontier van zowel capaciteit als aanvalsoppervlak.

Aanvalsoppervlak

Multimodale modellen erven de aanvalsoppervlakken van elke modaliteit die ze ondersteunen, plus volledig nieuwe cross-modale aanvalsvectoren:

Vector	Beschrijving	Technieken
Cross-modale injectie	Adversarial instructies in de ene modaliteit (bijv. beeld) die de verwerking van een andere modaliteit (bijv. tekst) beïnvloeden	Tekst in beelden die system prompts overschrijft
Modaliteitsmismatch	Misbruik van verschillen in hoe het model verschillende modaliteiten verwerkt	Beelden gebruiken om content over te brengen die in tekst geblokkeerd zou worden
Modale verwarring	Het model de relatie tussen modaliteiten verkeerd laten interpreteren	Onschuldige tekst koppelen aan adversarial beelden
OCR-misbruik	Het vermogen van het model om tekst in beelden te lezen misbruiken	Prompt injection inbedden in screenshots, documenten of foto's
Audio-injectie	Verborgen commando's in audio die het model verwerkt maar mensen niet kunnen horen	Ultrasone of gemaskeerde audiocommando's

Unieke kenmerken

Het cross-modale aanvalsoppervlak is de bepalende beveiligingsuitdaging van multimodale modellen. Elke modaliteit heeft zijn eigen voorverwerkingspijplijn, en de fusielaag waar modaliteiten worden gecombineerd is een doelwit met hoge waarde. Aanvallen die de kloof misbruiken tussen hoe verschillende modaliteiten worden gefilterd, zijn bijzonder effectief, omdat guardrail-systemen modaliteiten vaak inconsistent afdekken.

Embeddingmodellen

Embeddingmodellen (text-embedding-3, voyage-3, BGE) zetten tekst (of andere data) om in dichte numerieke vectoren. Ze genereren geen tekst — ze produceren vectoren met een vaste dimensie die gebruikt worden voor search, classificatie en RAG.

Aanvalsoppervlak

Vector	Beschrijving	Technieken
Embeddingcollision	Adversarial tekst maken die vergelijkbare embeddings produceert als doeltekst	Gradient-gebaseerde optimalisatie, genetische algoritmen
Retrieval-poisoning	Documenten injecteren die voor specifieke queries worden opgehaald	SEO-achtige technieken voor vectordatabases
Membership inference	Bepalen of specifieke tekst in de trainingsdata zat	Statistische analyse van embeddingafstanden
Embeddinginversie	Originele tekst herstellen uit embeddings	Getrainde inversiemodellen die vectoren terugvertalen naar tekst
Clustermanipulatie	De ordening van een embeddingruimte corrumperen	Adversarial documenten invoegen die clustergrenzen vervormen

Unieke kenmerken

Embeddingmodellen vormen het fundament van RAG-systemen. Als een aanvaller kan manipuleren wat er wordt opgehaald, kan hij de uitvoer van het generatieve model beïnvloeden zonder het ooit direct aan te vallen. Embeddingaanvallen zijn indirect maar zeer effectief, omdat ze het vertrouwen misbruiken dat generatieve modellen in opgehaalde content stellen.

Codegeneratiemodellen

Codegeneratiemodellen (Codex, CodeLlama, StarCoder, Copilot) zijn getraind om uitvoerbare code te produceren. Dit creëert een fundamenteel ander risicoprofiel dan tekstgeneratie.

Aanvalsoppervlak

Vector	Beschrijving	Technieken
Genereren van kwaadaardige code	Het model verleiden code met kwetsbaarheden of backdoors te produceren	Prompt injection gericht op codecommentaar, manipulatie van specificaties
Dependency confusion	Gegenereerde code verwijst naar kwaadaardige packages	De trainingsdata bevat verwijzingen naar packages onder beheer van een aanvaller
Code-injectie via context	Kwaadaardige code injecteren via repository-context of RAG	Code-repositories vergiftigen waaruit het model ophaalt
Ontsnapping uit de uitvoeringsomgeving	Gegenereerde code die uit zijn sandbox ontsnapt	Shell-commando's, toegang tot het bestandssysteem, netwerkaanroepen in gegenereerde code
Supply chain-aanvallen	De trainingsdata van het model compromitteren om hardnekkige codekwetsbaarheden in te bedden	Open-source repositories vergiftigen die in de trainingsdata worden gebruikt

Unieke kenmerken

Het cruciale verschil met codegeneratiemodellen is dat hun uitvoer vaak wordt uitgevoerd. Schadelijke tekstuitvoer is zorgwekkend; schadelijke code die wordt uitgevoerd is een actieve exploit. Codegeneratiemodellen kampen ook met de unieke uitdaging van package-hallucinatie — het genereren van import-statements voor packages die niet bestaan, die aanvallers kunnen registreren en vullen met malware.

Gespecialiseerde en domeinspecifieke modellen

Verschillende categorieën gespecialiseerde modellen brengen unieke aanvalsoppervlakken met zich mee:

Spraak- en audiomodellen

Modellen als Whisper (speech-to-text) en text-to-speech-systemen kampen met adversarial audio-aanvallen, spoofing van sprekers en injectie van verborgen commando's in audiostromen.

Beeldgeneratiemodellen

Modellen als DALL-E, Stable Diffusion en Midjourney kunnen worden gemanipuleerd om schadelijke beelden te genereren, contentfilters te omzeilen via geobfusqueerde prompts, of auteursrechtelijk beschermd materiaal te reproduceren. Aanvallen richten zich op promptobfuscatie en het ontwijken van classifiers.

Aanbevelingsmodellen

Modellen die content, producten of acties aanbevelen, kunnen worden gemanipuleerd via interactievergiftiging (strategische kliks of beoordelingen), voorkeursinjectie en misbruik van de filterbubbel.

Classificatiemodellen

Binaire of multiclass-classifiers die gebruikt worden voor contentmoderatie, spamdetectie of veiligheidsfiltering zijn doelwitten voor ontwijkingsaanvallen. Technieken zijn onder meer adversarial verstoring, misbruik van beslisgrenzen en manipulatie van trainingsdata.

Je aanvalsstrategie kiezen op basis van het modeltype

Modeltype	Primaire aanvalsstrategie	Belangrijkste risico
Tekstgeneratie	Prompt injection, jailbreaken	Schadelijke content, datalekkage
Vision	Adversarial verstoring, typografische aanvallen	Verkeerde classificatie, omzeilen van veiligheid
Multimodaal	Cross-modale injectie, modaliteitsmismatch	Breedste aanvalsoppervlak, filtergaten
Embedding	Retrieval-poisoning, embeddingcollision	Indirecte invloed op downstream-modellen
Codegeneratie	Genereren van kwaadaardige code, ontsnapping uit uitvoering	Code-uitvoering, compromittering van de supply chain

Gerelateerde onderwerpen

Het AI-landschap — het bredere ecosysteem waarin deze modellen opereren
Deploymentpatronen — hoe deployment de modeltype-specifieke risico's beïnvloedt
Adversarial ML: kernconcepten — de theoretische grondslagen van adversarial aanvallen
Hoe LLM's werken — diepere duik in de binnenkant van tekstgeneratiemodellen

Bronnen

"Adversarial Examples in the Physical World" - Kurakin et al. (2017) - Baanbrekend werk dat adversarial verstoringen demonstreert die overdraagbaar zijn naar vision-systemen in de fysieke wereld
"Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al. (2023) - Onderzoek naar cross-modale aanvallen op multimodale taalmodellen
"Poisoning Language Models During Instruction Tuning" - Wan et al. (2023) - Technieken om backdoors in te bedden in fine-tuned taalmodellen
"Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions" - Pearce et al. (2022) - Systematische evaluatie van beveiligingskwetsbaarheden in AI-gegenereerde code

Knowledge Check

Waarom worden multimodale modellen geacht het breedste aanvalsoppervlak te hebben?

Modeltypes en hun aanvalsoppervlakken

Beginner9 min lezenBijgewerkt op 2026-03-15

Hoe tekst-, vision-, multimodale, embedding- en codegeneratiemodellen elk unieke kwetsbaarheden en aanvalsoppervlakken voor redteamers met zich meebrengen.

model-types attack-surface multimodal code-generation beginner

Waarom het modeltype ertoe doet

Tekstgeneratiemodellen

Tekstgeneratiemodellen (GPT-4, Claude, Llama, Mistral) accepteren tekstinvoer en produceren tekstuitvoer. Ze zijn het meest voorkomende doelwit voor AI-redteaming.

Aanvalsoppervlak

Vector	Beschrijving	Technieken
Prompt injection	Adversarial instructies in gebruikersinvoer of opgehaalde content	Directe injectie, indirecte injectie, misbruik van de instructiehiërarchie
Jailbreaken	Veiligheidstraining overschrijven om beperkte content te produceren	Rollenspel, encodingtrucs, many-shot, crescendo-aanvallen
Extractie van system prompt	Het model zijn systeeminstructies laten onthullen	Instructieverwarring, rolomkering, meta-prompting
Extractie van trainingsdata	Het model prompten om gememoriseerde trainingsdata te reproduceren	Letterlijke elicitatie, completion-gebaseerde extractie
Outputmanipulatie	Modeluitvoer naar specifieke content sturen	Prefix-injectie, logit-manipulatie (als de API logprobs blootstelt)

Unieke kenmerken

Vision-modellen

Vision-modellen verwerken beelden als invoer. Hieronder vallen beeldclassifiers (ResNet, ViT), object detectors (YOLO) en beeldbegrijpende modellen die tekstuele beschrijvingen van beelden genereren.

Aanvalsoppervlak

Vector	Beschrijving	Technieken
Adversarial verstoring	Onmerkbare pixelwijzigingen die verkeerde classificatie veroorzaken	FGSM, PGD, C&W-aanvallen
Adversarial patches	Zichtbare maar schijnbaar onschuldige beeldpatches die specifiek gedrag uitlokken	Stickers in de fysieke wereld, QR-code-achtige adversarial patches
Typografische aanvallen	Tekst in beelden die het modelgedrag beïnvloedt	Tekst toevoegen aan beelden die vision-language-modellen als instructies verwerken
Steganografische payloads	Verborgen data in beelden die modellen detecteren maar mensen niet	Adversarial content inbedden in beeldmetadata of pixelpatronen
Datavergiftiging	Trainingsbeelden corrumperen om backdoors in te bedden	Trigger-patches die een specifieke classificatie veroorzaken wanneer ze aanwezig zijn

Unieke kenmerken

Multimodale modellen

Aanvalsoppervlak

Multimodale modellen erven de aanvalsoppervlakken van elke modaliteit die ze ondersteunen, plus volledig nieuwe cross-modale aanvalsvectoren:

Vector	Beschrijving	Technieken
Cross-modale injectie	Adversarial instructies in de ene modaliteit (bijv. beeld) die de verwerking van een andere modaliteit (bijv. tekst) beïnvloeden	Tekst in beelden die system prompts overschrijft
Modaliteitsmismatch	Misbruik van verschillen in hoe het model verschillende modaliteiten verwerkt	Beelden gebruiken om content over te brengen die in tekst geblokkeerd zou worden
Modale verwarring	Het model de relatie tussen modaliteiten verkeerd laten interpreteren	Onschuldige tekst koppelen aan adversarial beelden
OCR-misbruik	Het vermogen van het model om tekst in beelden te lezen misbruiken	Prompt injection inbedden in screenshots, documenten of foto's
Audio-injectie	Verborgen commando's in audio die het model verwerkt maar mensen niet kunnen horen	Ultrasone of gemaskeerde audiocommando's

Unieke kenmerken

Embeddingmodellen

Aanvalsoppervlak

Vector	Beschrijving	Technieken
Embeddingcollision	Adversarial tekst maken die vergelijkbare embeddings produceert als doeltekst	Gradient-gebaseerde optimalisatie, genetische algoritmen
Retrieval-poisoning	Documenten injecteren die voor specifieke queries worden opgehaald	SEO-achtige technieken voor vectordatabases
Membership inference	Bepalen of specifieke tekst in de trainingsdata zat	Statistische analyse van embeddingafstanden
Embeddinginversie	Originele tekst herstellen uit embeddings	Getrainde inversiemodellen die vectoren terugvertalen naar tekst
Clustermanipulatie	De ordening van een embeddingruimte corrumperen	Adversarial documenten invoegen die clustergrenzen vervormen

Unieke kenmerken

Codegeneratiemodellen

Codegeneratiemodellen (Codex, CodeLlama, StarCoder, Copilot) zijn getraind om uitvoerbare code te produceren. Dit creëert een fundamenteel ander risicoprofiel dan tekstgeneratie.

Aanvalsoppervlak

Vector	Beschrijving	Technieken
Genereren van kwaadaardige code	Het model verleiden code met kwetsbaarheden of backdoors te produceren	Prompt injection gericht op codecommentaar, manipulatie van specificaties
Dependency confusion	Gegenereerde code verwijst naar kwaadaardige packages	De trainingsdata bevat verwijzingen naar packages onder beheer van een aanvaller
Code-injectie via context	Kwaadaardige code injecteren via repository-context of RAG	Code-repositories vergiftigen waaruit het model ophaalt
Ontsnapping uit de uitvoeringsomgeving	Gegenereerde code die uit zijn sandbox ontsnapt	Shell-commando's, toegang tot het bestandssysteem, netwerkaanroepen in gegenereerde code
Supply chain-aanvallen	De trainingsdata van het model compromitteren om hardnekkige codekwetsbaarheden in te bedden	Open-source repositories vergiftigen die in de trainingsdata worden gebruikt

Modeltype	Primaire aanvalsstrategie	Belangrijkste risico
Tekstgeneratie	Prompt injection, jailbreaken	Schadelijke content, datalekkage
Vision	Adversarial verstoring, typografische aanvallen	Verkeerde classificatie, omzeilen van veiligheid
Multimodaal	Cross-modale injectie, modaliteitsmismatch	Breedste aanvalsoppervlak, filtergaten
Embedding	Retrieval-poisoning, embeddingcollision	Indirecte invloed op downstream-modellen
Codegeneratie	Genereren van kwaadaardige code, ontsnapping uit uitvoering	Code-uitvoering, compromittering van de supply chain

Gerelateerde onderwerpen

Het AI-landschap — het bredere ecosysteem waarin deze modellen opereren
Deploymentpatronen — hoe deployment de modeltype-specifieke risico's beïnvloedt
Adversarial ML: kernconcepten — de theoretische grondslagen van adversarial aanvallen
Hoe LLM's werken — diepere duik in de binnenkant van tekstgeneratiemodellen

Bronnen

"Adversarial Examples in the Physical World" - Kurakin et al. (2017) - Baanbrekend werk dat adversarial verstoringen demonstreert die overdraagbaar zijn naar vision-systemen in de fysieke wereld
"Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al. (2023) - Onderzoek naar cross-modale aanvallen op multimodale taalmodellen
"Poisoning Language Models During Instruction Tuning" - Wan et al. (2023) - Technieken om backdoors in te bedden in fine-tuned taalmodellen
"Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions" - Pearce et al. (2022) - Systematische evaluatie van beveiligingskwetsbaarheden in AI-gegenereerde code

Knowledge Check

Waarom worden multimodale modellen geacht het breedste aanvalsoppervlak te hebben?

Modeltypes en hun aanvalsoppervlakken

Gerelateerde artikelen

Modeltypes en hun aanvalsoppervlakken

Gerelateerde artikelen