Cross-Modal-aanvalsstrategieën
Overzicht van aanvalsstrategieën die de grenzen tussen inputmodaliteiten in multimodale AI-systemen uitbuiten, waaronder vision-language-, audio-text- en documentverwerkingspijplijnen.
Cross-modal-aanvallen buiten de naden tussen inputmodaliteiten in multimodale AI-systemen uit. Waar aanvallen binnen één modaliteit zich richten op de verwerking van tekst, afbeeldingen of audio afzonderlijk door het model, richten cross-modal-aanvallen zich op de vertaling, fusie en interpretatie die plaatsvindt wanneer informatie van de ene modaliteit naar de andere overgaat.
Multimodale AI-architectuur en aanvalsoppervlak
Image Input ──→ Vision Encoder ──→ Projection Layer ──┐
├──→ LLM ──→ Output
Text Input ──→ Tokenizer ──→ Text Embeddings ────────┘ ↑
│
Audio Input ──→ Audio Encoder ──→ Audio Projection ───────────┘
│
Document ──→ OCR/Parser ──→ Text Extraction ──────────────────┘
Attack surfaces:
1. Vision encoder interpretation (adversarial images)
2. Projection layer alignment (modality bridging)
3. OCR/parser trust (document injection)
4. Cross-modal context confusion (information leakage)
5. Modality priority conflicts (which input "wins")
Cross-Modal-aanvalstaxonomie
| Aanvalscategorie | Bronmodaliteit | Doeleffect | Voorbeeld |
|---|---|---|---|
| Visuele prompt-injectie | Afbeelding | Tekstinstructies overschrijven | Tekst gerenderd in afbeelding overschrijft systeemprompt |
| Modality bridging | Afbeelding/audio | Tekst-veiligheidsfilters omzeilen | Schadelijke instructie in afbeelding omzeilt tekst-only-filter |
| Cross-modal-jailbreak | Afbeelding + tekst | Gecombineerde jailbreak | Afbeelding biedt context die de tekst-jailbreak laat slagen |
| Informatielekkage | Tekst | Exfiltreren via afbeeldings-/audiobeschrijving | Model onthult systeemprompt bij het beschrijven van een afbeelding |
| Documentinjectie | PDF/document | Injecteren via OCR-pijplijn | Verborgen tekst in PDF geparst door OCR, gestuurd naar LLM |
| Modaliteitsverwarring | Gemengd | Verkeerde toeschrijving van contentbron | Model kan gebruikerstekst niet onderscheiden van OCR-geëxtraheerde tekst |
Analyse van vertrouwensgrenzen
De kritieke beveiligingseigenschap die cross-modal-aanvallen schenden, is modaliteits-vertrouwensequivalentie -- de aanname dat content uit alle modaliteiten met hetzelfde vertrouwensniveau behandeld zou moeten worden.
Vertrouwensniveaus per modaliteit
| Modaliteit | Typisch vertrouwensniveau | Waarom dit gevaarlijk is |
|---|---|---|
| Systeemprompt (tekst) | Hoogst -- door ontwikkelaar beheerd | Correcte aanname |
| Gebruikers-tekstinput | Laag -- niet-vertrouwd | Meestal gefilterd |
| Afbeeldingscontent | Gemiddeld -- "data, geen instructies" | Verkeerde aanname: afbeeldingen kunnen instructies bevatten |
| OCR-geëxtraheerde tekst | Gemiddeld-hoog -- behandeld als "documentcontent" | Verkeerde aanname: documenten kunnen injecties bevatten |
| Audiotranscript | Gemiddeld -- behandeld als gebruikersspraak | Hangt af van transcriptiekwaliteit |
| Tool-/API-uitvoer | Gemiddeld-hoog -- behandeld als "systeemdata" | Kan door de aanvaller beïnvloed worden |
Assessmentmethodologie
Modaliteitsinventarisatie
Inventariseer alle inputmodaliteiten die het doelsysteem accepteert: tekst, afbeeldingen, audio, video, documenten (PDF, DOCX, XLSX), gestructureerde data (CSV, JSON). Breng voor elk de verwerkingspijplijn in kaart.
In kaart brengen van vertrouwensgrenzen
Bepaal voor elke modaliteit: (a) hoe content geëxtraheerd/voorverwerkt wordt, (b) welk vertrouwensniveau het LLM eraan toekent, (c) of veiligheidsfilters vóór of na de modaliteitsconversie van toepassing zijn.
Cross-modal-injectie testen
Test voor elk modaliteitspaar of instructies in de ene modaliteit het gedrag in een andere kunnen beïnvloeden. Begin met de paren met de hoogste impact: image-to-text, document-to-text, audio-to-text.
Verificatie van filterbypass
Verifieer of content die in de tekstmodaliteit geblokkeerd zou worden, doorgelaten wordt wanneer deze in een andere modaliteit gecodeerd is. Test dezelfde payloads in tekstvorm (zou geblokkeerd moeten worden) en in afbeeldings-/audio-/documentvorm.
Sonderen op informatielekkage
Test of het model informatie lekt uit de context van de ene modaliteit bij het verwerken van een andere. Voorbeeld: zorgt het beschrijven van een door de gebruiker geüploade afbeelding ervoor dat het model systeempromptcontent onthult?
Ontwikkeling van geketende aanvallen
Combineer cross-modal-technieken tot aanvalsketens met meerdere stappen die meerdere vertrouwensgrenzen op rij uitbuiten.
Aanvalscomplexiteit en vaardigheidsvereisten
| Aanvalstype | Vaardigheidsniveau | Benodigde tools | Slagingspercentage (typisch) |
|---|---|---|---|
| Tekst-in-afbeelding-injectie | Gemiddeld | Afbeeldingsbewerker | 60-80% op VLM's zonder afbeeldingsinputfiltering |
| Vijandige verstoringsafbeeldingen | Expert | PyTorch, optimalisatietoolkit | 40-70% (modelspecifiek) |
| Document-OCR-injectie | Gemiddeld | PDF-bewerker, lettertypemanipulatie | 70-90% op ongefilterde pijplijnen |
| Audio-injectie via transcriptie | Gevorderd | Audiobewerking, TTS | 30-50% (afhankelijk van transcriptiekwaliteit) |
| Multimodale jailbreak-ketens | Expert | Meerdere tools | 20-40% maar hoge impact |
Sectie-overzicht
Deze sectie behandelt cross-modal-aanvalsstrategieën diepgaand:
- Modality-Bridging Injection Attacks -- Technieken voor het coderen van payloads in de ene modaliteit om verdedigingen in een andere te omzeilen
- Multimodal Jailbreaking Techniques -- Gecombineerde multimodale benaderingen om veiligheids-alignment te omzeilen
- Cross-Modal Information Leakage -- Gevoelige informatie extraheren via schendingen van modaliteitsgrenzen
- Document & PDF Processing Attacks -- Documentparsing- en OCR-pijplijnen uitbuiten
- Lab: Multi-Modal Attack Chain -- Praktische oefeningen die meerdere cross-modal-technieken combineren
Voor visuele aanvallen binnen één modaliteit, zie Image-Based Prompt Injection en VLM Architecture & Alignment.
Gerelateerde onderwerpen
- Vision-Language Model Attacks - VLM-specifieke aanvalstechnieken die zich uitstrekken tot cross-modal-scenario's
- Audio Model Attack Surface - Audiospecifieke aanvallen die combineren met visuele en tekstmodaliteiten
- Prompt Injection Fundamentals - Fundamentele injectietechnieken die ten grondslag liggen aan cross-modal-aanvallen
- Defense Landscape Overview - Defensieve strategieën voor multimodale systemen
- Video Model Attacks - Aanvallen op de temporele dimensie die meerdere modaliteiten omvatten
Referenties
- "Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al. (2023) - Demonstrates how adversarial images can bypass LLM safety alignment in multimodal models
- "(Ab)using Images and Sounds for Indirect Instruction Injection in Multi-Modal LLMs" - Bagdasaryan et al. (2023) - Systematic study of cross-modal injection vectors in multimodal AI systems
- "On the Robustness of Multi-Modal LLMs to Image and Text Perturbations" - Wang et al. (2024) - Evaluation of multimodal model robustness across modality boundaries
- "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection" - Greshake et al. (2023) - Foundational work on indirect injection through non-text modalities
Wat is de fundamentele kwetsbaarheid die cross-modal-aanvallen uitbuiten?