Aanvallen op vision-language-modellen
Uitgebreid overzicht van het VLM-aanvalsoppervlak, hoe vision-encoders verbinding maken met taalmodellen, en waarom multimodale systemen nieuwe injectievectoren creëren.
Wat zijn vision-language-modellen?
Vision-Language-modellen (VLM's) vormen een van de belangrijkste vooruitgangen in AI-capaciteit -- en een van de grootste uitbreidingen van het aanvalsoppervlak. Modellen zoals GPT-4o, Claude en Gemini kunnen afbeeldingen zien, documenten lezen en redeneren over visuele inhoud naast tekstinstructies.
Deze capaciteit introduceert een geheel nieuwe klasse kwetsbaarheden die in tekst-only taalmodellen niet bestaan.
Het VLM-aanvalsoppervlak
Het aanvalsoppervlak van een VLM kan worden ontleed in vier lagen:
| Laag | Component | Aanvalsvoorbeelden |
|---|---|---|
| Invoercodering | Vision-encoder (ViT, CLIP) | Adversariële verstoringen, patch-aanvallen |
| Cross-modale alignment | Projectielaag, Q-Former | Misalignment-exploitatie, embedding-botsingen |
| Fusie & redeneren | LLM-ruggengraat | Op afbeeldingen gebaseerde prompt-injectie, cross-modale jailbreaks |
| Uitvoergeneratie | Decoder / veiligheidsfilters | Tekst-only veiligheidsclassificatoren omzeilen via visuele invoer |
Aanvallen op invoercodering
De vision-encoder transformeert ruwe pixels in embedding-vectoren. Deze transformatie is differentieerbaar, wat betekent dat aanvallers op gradiënten gebaseerde methoden kunnen gebruiken om afbeeldingen te vervaardigen die specifieke embeddings produceren -- zelfs als de afbeelding er voor een mens onschuldig uitziet.
Aanvallen op cross-modale alignment
VLM's moeten de kloof tussen vision- en taalrepresentaties overbruggen. De alignment-laag (vaak een geleerde lineaire projectie of cross-attention-module) wordt getraind op gepaarde afbeelding-tekstdata. Gaten in deze training creëren uitbuitbare misalignment -- situaties waarin het model iets uit een afbeelding "leest" wat een mens niet zou lezen.
Aanvallen op fusieniveau
Zodra afbeeldingstokens het contextvenster van het taalmodel binnenkomen, worden ze naast teksttokens verwerkt. Dit creëert de mogelijkheid voor op afbeeldingen gebaseerde prompt-injectie -- het verbergen van instructies in afbeeldingen die de tekstprompt overschrijven of aanvullen.
Bypass op uitvoerniveau
Veel veiligheidsmechanismen waren ontworpen voor tekst-only modellen. Wanneer schadelijke inhoud via de visuele modaliteit wordt geleverd, kunnen deze tekstgerichte filters die niet detecteren.
Waarom multimodaliteit nieuwe risico's creëert
Drie structurele factoren maken VLM's kwetsbaarder dan tekst-only modellen:
1. Uitgebreide invoerbandbreedte
Een enkele afbeelding kan veel meer informatie coderen dan een typische tekstprompt. Een afbeelding van 1024x1024 bevat ongeveer 3 miljoen waarden (pixels x kanalen). Deze enorme invoerruimte biedt ruim plaats om adversariële inhoud te verbergen die voor mensen onmerkbaar is.
2. Modaliteitsasymmetrie in veiligheidstraining
Het meeste RLHF en veiligheids-fine-tuning heeft zich gericht op tekst. Visuele veiligheidstraining is nieuwer, schaarser en moeilijker uitputtend te maken. De ruimte van schadelijke afbeeldingen is veel groter en lastiger te inventariseren dan schadelijke tekstpatronen.
3. Cross-modale verwarring
Wanneer het model informatie uit twee modaliteiten moet verzoenen, kunnen conflicten daartussen worden uitgebuit. Een afbeelding die het ene toont terwijl de tekst iets anders zegt, kan het model in ongedefinieerd gedrag duwen -- het beveiligingsequivalent van een race condition.
Taxonomie van VLM-aanvallen
VLM Attacks
├── Image-Based Prompt Injection
│ ├── Visible text injection
│ ├── Steganographic injection
│ └── QR / barcode injection
├── Adversarial Image Examples
│ ├── Pixel-level perturbation (PGD, FGSM)
│ ├── Patch attacks
│ └── Transferable adversarial examples
├── OCR & Typographic Attacks
│ ├── Adversarial font rendering
│ ├── Text overlay manipulation
│ └── Unicode visual spoofing
├── VLM-Specific Jailbreaks
│ ├── Cross-modal inconsistency
│ ├── Visual safety bypass
│ └── Encoded instruction images
└── Architecture Exploits
├── Vision encoder targeting
├── Alignment gap exploitation
└── Token embedding collision
Impact in de praktijk
VLM-aanvallen zijn niet theoretisch. Operationele systemen staan voor concrete risico's:
- Autonome agents: Een door een VLM aangedreven web-browsing-agent kan worden gekaapt door adversariële afbeeldingen die in webpagina's zijn ingebed, waardoor deze naar door de aanvaller gecontroleerde sites navigeert of data lekt.
- Documentverwerking: Bedrijfssystemen die VLM's gebruiken om facturen, contracten of formulieren te verwerken, zijn kwetsbaar voor verborgen instructies in documentafbeeldingen.
- Toegankelijkheidstools: VLM's die worden gebruikt om afbeeldingen te beschrijven voor slechtziende gebruikers, kunnen worden misleid om door de aanvaller gekozen tekst voor te lezen.
- Content-moderatie: Op VLM gebaseerde moderatiesystemen kunnen worden omzeild door schadelijke inhoud te coderen op manieren die de visuele pijplijn verkeerd classificeert.
Sectie-routekaart
Deze sectie behandelt VLM-beveiliging in detail:
| Pagina | Focus |
|---|---|
| VLM-architectuur & alignment | Hoe vision-encoders verbinding maken met LLM's en waar gaten ontstaan |
| Op afbeeldingen gebaseerde prompt-injectie | Instructies inbedden in afbeeldingen |
| Adversariële afbeeldingsvoorbeelden | Op gradiënten gebaseerde aanvallen op vision-encoders |
| OCR- & typografische aanvallen | Tekstherkenning in visuele invoer uitbuiten |
| VLM-specifiek jailbreaken | Veiligheid doorbreken via de visuele modaliteit |
| Lab: Afbeeldingsinjecties vervaardigen | Praktische aanvalsvervaardiging |
Gerelateerde onderwerpen
- Cross-modale aanvalsstrategieën -- aanvallen die meerdere modaliteiten overbruggen
- Aanvalsoppervlak van audiomodellen -- parallelle concepten in het audiodomein
- Basisbeginselen van prompt-injectie -- fundamentele injectietechnieken die zich uitstrekken naar visuele kanalen
Referenties
- "Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al. (2023) - Foundational work demonstrating adversarial image attacks against VLM safety alignment
- "On the Adversarial Robustness of Multi-Modal Foundation Models" - Schlarmann & Hein (2023) - Comprehensive analysis of adversarial vulnerabilities across VLM architectures
- "(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs" - Bagdasaryan et al. (2023) - Demonstrates image-based prompt injection in multimodal systems
- "FigStep: Jailbreaking Large Vision-Language Models via Typographic Visual Prompts" - Gong et al. (2023) - Typographic attacks exploiting VLM text recognition
Waarom zijn VLM's over het algemeen kwetsbaarder voor injectie-aanvallen dan tekst-only LLM's?