Wat is VLM Architecture?

Diepgaande verkenning van VLM-architecturen waaronder CLIP, SigLIP en vision-transformers. Hoe afbeeldingspatches tokens worden, alignment-training en waar misalignment uitbuitbare gaten creëert.

Wat is Image-Based Injection?

Technieken om tekstinstructies in afbeeldingen in te bedden om VLM's te manipuleren, waaronder steganografische injectie, zichtbare-tekstaanvallen en QR-code-exploitatie.

Wat is Adversarial Images?

Verstoringen op pixelniveau die VLM-gedrag veranderen, waaronder PGD-aanvallen op vision-encoders, overdraagbare adversariële afbeeldingen en patch-aanvallen.

Wat is OCR & Typographic Attacks?

OCR-capaciteiten in VLM's uitbuiten via typografische aanvallen, fontmanipulatie, adversariële tekst-overlays en exploits van tekstweergave.

Wat is VLM Jailbreaking?

Jailbreak-technieken die de vision-modaliteit uitbuiten, waaronder afbeelding-tekst-inconsistentie-aanvallen, visuele veiligheidsbypass en cross-modale jailbreak-strategieën.

Wat is Lab: Image Injection?

Praktisch lab voor het maken van op afbeeldingen gebaseerde prompt-injecties, testen tegen VLM's en het meten van slagingspercentages over verschillende injectietechnieken.

Wat is Typographic Adversarial Attacks?

Hoe tekst gerenderd in afbeeldingen VLM-gedrag beïnvloedt: adversariële typografie, op fonts gebaseerde prompt-injectie, visuele instructiekaping en verdedigingen tegen typografische manipulatie.

Aanvallen op vision-language-modellen

Gevorderd6 min lezenBijgewerkt op 2026-03-13

Uitgebreid overzicht van het VLM-aanvalsoppervlak, hoe vision-encoders verbinding maken met taalmodellen, en waarom multimodale systemen nieuwe injectievectoren creëren.

multimodal vlm vision image-attacks

Wat zijn vision-language-modellen?

Vision-Language-modellen (VLM's) vormen een van de belangrijkste vooruitgangen in AI-capaciteit -- en een van de grootste uitbreidingen van het aanvalsoppervlak. Modellen zoals GPT-4o, Claude en Gemini kunnen afbeeldingen zien, documenten lezen en redeneren over visuele inhoud naast tekstinstructies.

Deze capaciteit introduceert een geheel nieuwe klasse kwetsbaarheden die in tekst-only taalmodellen niet bestaan.

Het VLM-aanvalsoppervlak

Het aanvalsoppervlak van een VLM kan worden ontleed in vier lagen:

Laag	Component	Aanvalsvoorbeelden
Invoercodering	Vision-encoder (ViT, CLIP)	Adversariële verstoringen, patch-aanvallen
Cross-modale alignment	Projectielaag, Q-Former	Misalignment-exploitatie, embedding-botsingen
Fusie & redeneren	LLM-ruggengraat	Op afbeeldingen gebaseerde prompt-injectie, cross-modale jailbreaks
Uitvoergeneratie	Decoder / veiligheidsfilters	Tekst-only veiligheidsclassificatoren omzeilen via visuele invoer

Aanvallen op invoercodering

De vision-encoder transformeert ruwe pixels in embedding-vectoren. Deze transformatie is differentieerbaar, wat betekent dat aanvallers op gradiënten gebaseerde methoden kunnen gebruiken om afbeeldingen te vervaardigen die specifieke embeddings produceren -- zelfs als de afbeelding er voor een mens onschuldig uitziet.

Aanvallen op cross-modale alignment

VLM's moeten de kloof tussen vision- en taalrepresentaties overbruggen. De alignment-laag (vaak een geleerde lineaire projectie of cross-attention-module) wordt getraind op gepaarde afbeelding-tekstdata. Gaten in deze training creëren uitbuitbare misalignment -- situaties waarin het model iets uit een afbeelding "leest" wat een mens niet zou lezen.

Aanvallen op fusieniveau

Zodra afbeeldingstokens het contextvenster van het taalmodel binnenkomen, worden ze naast teksttokens verwerkt. Dit creëert de mogelijkheid voor op afbeeldingen gebaseerde prompt-injectie -- het verbergen van instructies in afbeeldingen die de tekstprompt overschrijven of aanvullen.

Bypass op uitvoerniveau

Veel veiligheidsmechanismen waren ontworpen voor tekst-only modellen. Wanneer schadelijke inhoud via de visuele modaliteit wordt geleverd, kunnen deze tekstgerichte filters die niet detecteren.

Waarom multimodaliteit nieuwe risico's creëert

Drie structurele factoren maken VLM's kwetsbaarder dan tekst-only modellen:

1. Uitgebreide invoerbandbreedte

Een enkele afbeelding kan veel meer informatie coderen dan een typische tekstprompt. Een afbeelding van 1024x1024 bevat ongeveer 3 miljoen waarden (pixels x kanalen). Deze enorme invoerruimte biedt ruim plaats om adversariële inhoud te verbergen die voor mensen onmerkbaar is.

2. Modaliteitsasymmetrie in veiligheidstraining

Het meeste RLHF en veiligheids-fine-tuning heeft zich gericht op tekst. Visuele veiligheidstraining is nieuwer, schaarser en moeilijker uitputtend te maken. De ruimte van schadelijke afbeeldingen is veel groter en lastiger te inventariseren dan schadelijke tekstpatronen.

3. Cross-modale verwarring

Wanneer het model informatie uit twee modaliteiten moet verzoenen, kunnen conflicten daartussen worden uitgebuit. Een afbeelding die het ene toont terwijl de tekst iets anders zegt, kan het model in ongedefinieerd gedrag duwen -- het beveiligingsequivalent van een race condition.

Taxonomie van VLM-aanvallen

VLM Attacks
├── Image-Based Prompt Injection
│   ├── Visible text injection
│   ├── Steganographic injection
│   └── QR / barcode injection
├── Adversarial Image Examples
│   ├── Pixel-level perturbation (PGD, FGSM)
│   ├── Patch attacks
│   └── Transferable adversarial examples
├── OCR & Typographic Attacks
│   ├── Adversarial font rendering
│   ├── Text overlay manipulation
│   └── Unicode visual spoofing
├── VLM-Specific Jailbreaks
│   ├── Cross-modal inconsistency
│   ├── Visual safety bypass
│   └── Encoded instruction images
└── Architecture Exploits
    ├── Vision encoder targeting
    ├── Alignment gap exploitation
    └── Token embedding collision

Impact in de praktijk

VLM-aanvallen zijn niet theoretisch. Operationele systemen staan voor concrete risico's:

Autonome agents: Een door een VLM aangedreven web-browsing-agent kan worden gekaapt door adversariële afbeeldingen die in webpagina's zijn ingebed, waardoor deze naar door de aanvaller gecontroleerde sites navigeert of data lekt.
Documentverwerking: Bedrijfssystemen die VLM's gebruiken om facturen, contracten of formulieren te verwerken, zijn kwetsbaar voor verborgen instructies in documentafbeeldingen.
Toegankelijkheidstools: VLM's die worden gebruikt om afbeeldingen te beschrijven voor slechtziende gebruikers, kunnen worden misleid om door de aanvaller gekozen tekst voor te lezen.
Content-moderatie: Op VLM gebaseerde moderatiesystemen kunnen worden omzeild door schadelijke inhoud te coderen op manieren die de visuele pijplijn verkeerd classificeert.

Sectie-routekaart

Deze sectie behandelt VLM-beveiliging in detail:

Pagina	Focus
VLM-architectuur & alignment	Hoe vision-encoders verbinding maken met LLM's en waar gaten ontstaan
Op afbeeldingen gebaseerde prompt-injectie	Instructies inbedden in afbeeldingen
Adversariële afbeeldingsvoorbeelden	Op gradiënten gebaseerde aanvallen op vision-encoders
OCR- & typografische aanvallen	Tekstherkenning in visuele invoer uitbuiten
VLM-specifiek jailbreaken	Veiligheid doorbreken via de visuele modaliteit
Lab: Afbeeldingsinjecties vervaardigen	Praktische aanvalsvervaardiging

Gerelateerde onderwerpen

Cross-modale aanvalsstrategieën -- aanvallen die meerdere modaliteiten overbruggen
Aanvalsoppervlak van audiomodellen -- parallelle concepten in het audiodomein
Basisbeginselen van prompt-injectie -- fundamentele injectietechnieken die zich uitstrekken naar visuele kanalen

Referenties

"Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al. (2023) - Foundational work demonstrating adversarial image attacks against VLM safety alignment
"On the Adversarial Robustness of Multi-Modal Foundation Models" - Schlarmann & Hein (2023) - Comprehensive analysis of adversarial vulnerabilities across VLM architectures
"(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs" - Bagdasaryan et al. (2023) - Demonstrates image-based prompt injection in multimodal systems
"FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts" - Gong et al. (2023) - Typographic attacks exploiting VLM text recognition

Knowledge Check

Waarom zijn VLM's over het algemeen kwetsbaarder voor injectie-aanvallen dan tekst-only LLM's?

Aanvallen op vision-language-modellen

Gevorderd6 min lezenBijgewerkt op 2026-03-13

Uitgebreid overzicht van het VLM-aanvalsoppervlak, hoe vision-encoders verbinding maken met taalmodellen, en waarom multimodale systemen nieuwe injectievectoren creëren.

multimodal vlm vision image-attacks

Wat zijn vision-language-modellen?

Deze capaciteit introduceert een geheel nieuwe klasse kwetsbaarheden die in tekst-only taalmodellen niet bestaan.

Het VLM-aanvalsoppervlak

Het aanvalsoppervlak van een VLM kan worden ontleed in vier lagen:

Laag	Component	Aanvalsvoorbeelden
Invoercodering	Vision-encoder (ViT, CLIP)	Adversariële verstoringen, patch-aanvallen
Cross-modale alignment	Projectielaag, Q-Former	Misalignment-exploitatie, embedding-botsingen
Fusie & redeneren	LLM-ruggengraat	Op afbeeldingen gebaseerde prompt-injectie, cross-modale jailbreaks
Uitvoergeneratie	Decoder / veiligheidsfilters	Tekst-only veiligheidsclassificatoren omzeilen via visuele invoer

VLM Attacks
├── Image-Based Prompt Injection
│   ├── Visible text injection
│   ├── Steganographic injection
│   └── QR / barcode injection
├── Adversarial Image Examples
│   ├── Pixel-level perturbation (PGD, FGSM)
│   ├── Patch attacks
│   └── Transferable adversarial examples
├── OCR & Typographic Attacks
│   ├── Adversarial font rendering
│   ├── Text overlay manipulation
│   └── Unicode visual spoofing
├── VLM-Specific Jailbreaks
│   ├── Cross-modal inconsistency
│   ├── Visual safety bypass
│   └── Encoded instruction images
└── Architecture Exploits
    ├── Vision encoder targeting
    ├── Alignment gap exploitation
    └── Token embedding collision

Impact in de praktijk

VLM-aanvallen zijn niet theoretisch. Operationele systemen staan voor concrete risico's:

Autonome agents: Een door een VLM aangedreven web-browsing-agent kan worden gekaapt door adversariële afbeeldingen die in webpagina's zijn ingebed, waardoor deze naar door de aanvaller gecontroleerde sites navigeert of data lekt.
Documentverwerking: Bedrijfssystemen die VLM's gebruiken om facturen, contracten of formulieren te verwerken, zijn kwetsbaar voor verborgen instructies in documentafbeeldingen.
Toegankelijkheidstools: VLM's die worden gebruikt om afbeeldingen te beschrijven voor slechtziende gebruikers, kunnen worden misleid om door de aanvaller gekozen tekst voor te lezen.
Content-moderatie: Op VLM gebaseerde moderatiesystemen kunnen worden omzeild door schadelijke inhoud te coderen op manieren die de visuele pijplijn verkeerd classificeert.

Sectie-routekaart

Deze sectie behandelt VLM-beveiliging in detail:

Pagina	Focus
VLM-architectuur & alignment	Hoe vision-encoders verbinding maken met LLM's en waar gaten ontstaan
Op afbeeldingen gebaseerde prompt-injectie	Instructies inbedden in afbeeldingen
Adversariële afbeeldingsvoorbeelden	Op gradiënten gebaseerde aanvallen op vision-encoders
OCR- & typografische aanvallen	Tekstherkenning in visuele invoer uitbuiten
VLM-specifiek jailbreaken	Veiligheid doorbreken via de visuele modaliteit
Lab: Afbeeldingsinjecties vervaardigen	Praktische aanvalsvervaardiging

Gerelateerde onderwerpen

Cross-modale aanvalsstrategieën -- aanvallen die meerdere modaliteiten overbruggen
Aanvalsoppervlak van audiomodellen -- parallelle concepten in het audiodomein
Basisbeginselen van prompt-injectie -- fundamentele injectietechnieken die zich uitstrekken naar visuele kanalen

Referenties

"Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al. (2023) - Foundational work demonstrating adversarial image attacks against VLM safety alignment
"On the Adversarial Robustness of Multi-Modal Foundation Models" - Schlarmann & Hein (2023) - Comprehensive analysis of adversarial vulnerabilities across VLM architectures
"(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs" - Bagdasaryan et al. (2023) - Demonstrates image-based prompt injection in multimodal systems
"FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts" - Gong et al. (2023) - Typographic attacks exploiting VLM text recognition

Knowledge Check

Waarom zijn VLM's over het algemeen kwetsbaarder voor injectie-aanvallen dan tekst-only LLM's?

Aanvallen op vision-language-modellen

Wat zijn vision-language-modellen?

Het VLM-aanvalsoppervlak

Aanvallen op invoercodering

Aanvallen op cross-modale alignment

Aanvallen op fusieniveau

Bypass op uitvoerniveau

Waarom multimodaliteit nieuwe risico's creëert

1. Uitgebreide invoerbandbreedte

2. Modaliteitsasymmetrie in veiligheidstraining

3. Cross-modale verwarring

Taxonomie van VLM-aanvallen

Impact in de praktijk

Sectie-routekaart

Gerelateerde onderwerpen

Referenties

Leerpad

Aanvallen op vision-language-modellen

Wat zijn vision-language-modellen?

Het VLM-aanvalsoppervlak

Aanvallen op invoercodering

Aanvallen op cross-modale alignment

Aanvallen op fusieniveau

Bypass op uitvoerniveau

Waarom multimodaliteit nieuwe risico's creëert

1. Uitgebreide invoerbandbreedte

2. Modaliteitsasymmetrie in veiligheidstraining

3. Cross-modale verwarring

Taxonomie van VLM-aanvallen

Impact in de praktijk

Sectie-routekaart

Gerelateerde onderwerpen

Referenties

Leerpad

Aanvallen op vision-language-modellen

Leerpad

Gerelateerde artikelen

Aanvallen op vision-language-modellen

Leerpad

Gerelateerde artikelen