Aanvallen op multimodale embeddings
Het misbruiken van cross-modale embeddingmodellen zoals CLIP — manipulatie van de adversarial uitlijning tussen beeld en tekst, cross-modale injectie en aanvallen op multimodale retrievalsystemen.
Multimodale embeddingmodellen zoals CLIP (Contrastive Language-Image Pre-training), SigLIP en hun afgeleiden beelden verschillende datatypen — tekst, afbeeldingen, audio, video — af in een gedeelde embedding-ruimte. Een tekstbeschrijving en een bijbehorende afbeelding krijgen vergelijkbare embeddings, wat cross-modaal zoeken, ophalen en vergelijken mogelijk maakt. Deze modellen vormen de motor achter beeldzoeken, contentmoderatie, aanbevelingssystemen en, in toenemende mate, multimodale RAG-pijplijnen.
Het cross-modale karakter van deze modellen creëert unieke aanvalsoppervlakken. Een aanvaller kan de relatie tussen modaliteiten manipuleren — een afbeelding laten embedden als een andere tekstbeschrijving, of tekst laten embedden als een andere afbeelding — om systemen die op cross-modale gelijkenis vertrouwen te ondermijnen.
Hoe cross-modale embeddings werken
Gedeelde embedding-ruimte
Cross-modale modellen worden getraind om vergelijkbare embeddingvectoren te produceren voor semantisch verwante invoer over modaliteiten heen. CLIP is bijvoorbeeld getraind op 400 miljoen beeld-tekstparen en leerde zo om bijbehorende afbeeldingen en tekstbeschrijvingen af te beelden op nabijgelegen punten in een gedeelde ruimte van 512 of 768 dimensies.
De trainingsdoelstelling is contrastief: voor een batch beeld-tekstparen leert het model de gelijkenis tussen bijpassende paren te maximaliseren en de gelijkenis tussen niet-bijpassende paren te minimaliseren. Dit levert een embedding-ruimte op waarin cross-modale gelijkenis betekenisvol is — je kunt een tekstzoekvraag vergelijken met een database van beeld-embeddings om bijpassende afbeeldingen te vinden, of andersom.
De modale kloof
Ondanks de training om modaliteiten uit te lijnen, vertonen cross-modale modellen een "modale kloof" — embeddings van afbeeldingen en embeddings van tekst bezetten verschillende regio's van de embedding-ruimte, zelfs wanneer ze semantisch equivalent zijn. Binnen een modaliteit vormen embeddings strakke clusters, maar de clusters voor verschillende modaliteiten overlappen niet perfect.
Deze modale kloof heeft beveiligingsimplicaties. Aanvallen die binnen één modaliteit opereren (adversarial afbeeldingen vinden die dicht bij een doelafbeelding embedden) zijn eenvoudiger dan aanvallen die modaliteiten overschrijden (adversarial afbeeldingen vinden die dicht bij een doeltekst embedden). De modale kloof betekent echter ook dat cross-modale gelijkenisscores andere verdelingen hebben dan binnen-modale scores, en systemen die geen rekening houden met dit verschil kunnen kwetsbaarheden in hun drempelwaarden hebben.
Aanvalstechnieken
Aanval 1: Adversarial beeld-tekst-misuitlijning
Vervaardig afbeeldingen die visueel het ene weergeven, maar dicht bij een tekstbeschrijving van iets totaal anders embedden. Het klassieke voorbeeld is een afbeelding van een kat die dicht bij de tekstembedding van "dog" embedt — de afbeelding ziet er voor mensen uit als een kat, maar wordt door het embeddingmodel als hondgerelateerd behandeld.
Deze aanval gebruikt gradiëntgebaseerde optimalisatie om verstoringen aan een afbeelding toe te voegen die de embedding ervan naar een doeltekstembedding verschuiven. De verstoringen zijn doorgaans onmerkbaar voor mensen (kleine veranderingen op pixelniveau, verdeeld over de afbeelding), maar veranderen de interpretatie van het model aanzienlijk.
De praktische impact hangt af van de toepassing. In een beeldzoeksysteem kan adversarial misuitlijning ervoor zorgen dat irrelevante of misleidende afbeeldingen in de zoekresultaten verschijnen. In een contentmoderatiesysteem kan het ervoor zorgen dat schadelijke afbeeldingen als onschuldig worden geclassificeerd. In een multimodaal RAG-systeem kan het ervoor zorgen dat verkeerde afbeeldingen als context voor een LLM worden opgehaald.
Aanval 2: Typografische aanvallen
CLIP en vergelijkbare modellen zijn bekend kwetsbaar voor typografische aanvallen — afbeeldingen die tekst bevatten die de interpretatie van het model beïnvloedt. Een afbeelding van een appel met de tekst "iPod" eroverheen kan dichter bij "iPod" dan bij "apple" embedden, omdat het model sterke associaties heeft geleerd tussen tekst in afbeeldingen en semantische concepten.
Typografische aanvallen zijn bijzonder effectief omdat ze geen adversarial verstoringen vereisen — de tekst is zichtbaar in de afbeelding. Ze misbruiken de aangeleerde associatie van het model tussen visuele tekst en semantische betekenis, wat een fundamenteel kenmerk is van modellen die zijn getraind op internetdata waar afbeeldingen vaak tekst bevatten.
Voor contentmoderatie kunnen typografische aanvallen ervoor zorgen dat schadelijke afbeeldingen opnieuw worden geclassificeerd door er onschuldige tekst overheen te leggen. Voor zoeksystemen kunnen ze ervoor zorgen dat afbeeldingen in niet-gerelateerde zoekopdrachten verschijnen. Voor multimodale RAG kunnen ze misleidende context injecteren via afbeeldingen die tekstinstructies bevatten.
Aanval 3: Cross-modale prompt injection
In multimodale RAG-systemen worden afbeeldingen samen met tekstdocumenten geëmbed. Een aanvaller kan afbeeldingen maken die dicht bij specifieke tekstzoekvragen embedden en verborgen of zichtbare tekst met prompt-injection-payloads bevatten.
De aanvalsketen werkt als volgt. De aanvaller maakt een afbeelding die een prompt-injection-payload in tekst bevat (zichtbaar of verborgen via steganografische technieken). De afbeelding is zo vervaardigd dat ze dicht bij een doelzoekvraag embedt. Wanneer een gebruiker de doelzoekvraag indient, haalt het multimodale retrievalsysteem de afbeelding van de aanvaller op. Het LLM verwerkt de afbeelding, leest de ingebedde tekst (via zijn vision-capaciteiten) en volgt de injectie-instructies op.
Dit is een krachtige aanval, omdat de injectiepayload als afbeelding door de embedding- en retrievalpijplijn reist — een modaliteit die contentfilters mogelijk niet analyseren op tekstgebaseerde injectiepatronen.
Aanval 4: Vergiftiging van de embedding-ruimte
In systemen waar gebruikers afbeeldingen kunnen aandragen (user-generated content, documentuploads, bijdragen aan de kennisbank) kan een aanvaller de embedding-ruimte vergiftigen door veel afbeeldingen met adversarial gemanipuleerde embeddings te uploaden.
Het doel is om specifieke regio's van de embedding-ruimte te verzadigen met door de aanvaller gecontroleerde content. Wanneer een legitieme zoekvraag op die regio uitkomt, domineren de afbeeldingen van de aanvaller de retrievalresultaten. Dit is het multimodale equivalent van RAG-poisoning in tekstgebaseerde systemen.
De uitdaging voor de aanvaller is het maken van afbeeldingen die de visuele moderatie passeren (ze moeten er voor menselijke beoordelaars onschuldig uitzien) terwijl ze in de doelregio embedden. Adversarial verstoringstechnieken bereiken dit door kleine, onmerkbare veranderingen aan te brengen in onschuldig ogende afbeeldingen die hun embeddings naar de doelregio verschuiven.
Aanval 5: Cross-modale transfer-aanvallen
Adversarial verstoringen die in de ene modaliteit worden ontdekt, kunnen soms worden overgedragen om via de gedeelde embedding-ruimte een andere modaliteit te beïnvloeden. Een adversarial tekststring die in een specifieke regio van de gedeelde ruimte embedt, kan worden gebruikt om te begrijpen welke visuele kenmerken bij die regio horen, en andersom.
Deze cross-modale overdracht maakt aanvallen mogelijk waarbij de aanvaller alleen toegang heeft tot één modaliteit (tekst) maar de andere wil beïnvloeden (beeldretrieval). Door tekstinvoer te vervaardigen die uitkomt op de embeddingregio waar de doelafbeeldingen zich bevinden, kan de aanvaller de beeldretrieval beïnvloeden met louter tekstmanipulatie.
Toepassingen die onder vuur liggen
Beeldzoeksystemen
Beeldzoeksystemen die cross-modale embeddings gebruiken (afbeeldingen zoeken met tekstzoekvragen) zijn kwetsbaar voor resultaatmanipulatie. Adversarial afbeeldingen kunnen in het beeldcorpus worden geïnjecteerd om in zoekresultaten voor niet-gerelateerde zoekvragen te verschijnen. De impact varieert van hinderlijk (irrelevante resultaten) tot ernstig (het manipuleren van beeldzoeken in medische, juridische of veiligheidskritische toepassingen).
Contentmoderatie
Contentmoderatiesystemen die CLIP-embeddings gebruiken voor classificatie (is deze afbeelding schadelijk?) zijn kwetsbaar voor adversarial misuitlijning. Een aanvaller kan afbeeldingen vervaardigen die visueel schadelijke content bevatten, maar in de "veilige" regio van de embedding-ruimte embedden, waarmee de geautomatiseerde moderatie wordt omzeild. Omgekeerd kan een aanvaller ervoor zorgen dat onschuldige afbeeldingen worden gemarkeerd door hun embeddings naar regio's met schadelijke content te verschuiven.
Multimodale RAG
Multimodale RAG-systemen halen zowel tekst als afbeeldingen op als context voor LLM-generatie. Alle tekstgebaseerde RAG-poisoning-technieken zijn van toepassing, plus het extra aanvalsoppervlak van beeldgebaseerde injectie. Afbeeldingen kunnen prompt-injection-payloads dragen via ingebedde tekst, steganografische content of adversarial vervaardigde visuele kenmerken die de interpretatie van het LLM beïnvloeden.
Aanbevelingssystemen
Aanbevelingssystemen die cross-modale embeddings gebruiken om gebruikers aan content te koppelen, zijn kwetsbaar voor embeddingmanipulatie. Door content te vervaardigen die in specifieke regio's van de ruimte embedt, kunnen aanvallers beïnvloeden welke content aan welke gebruikers wordt aanbevolen.
Verdedigingsstrategieën
Ensemble van meerdere modellen
Gebruik meerdere embeddingmodellen met verschillende architecturen voor kritieke beslissingen. Een adversarial invoer die voor CLIP is vervaardigd, misleidt SigLIP of BLIP-2 mogelijk niet. Als meerdere modellen het eens zijn over de classificatie of het retrievalresultaat, is de betrouwbaarheid hoger. Zijn ze het oneens, markeer de invoer dan voor handmatige beoordeling.
Detectie van verstoringen
Adversarial beeldverstoringen hebben statistische eigenschappen die afwijken van natuurlijke beeldruis. Detectoren die zijn getraind om adversarial verstoringen van natuurlijke variaties te onderscheiden, kunnen mogelijk gemanipuleerde afbeeldingen markeren voordat ze de embeddingpijplijn binnenkomen.
Detectie van tekst in afbeeldingen
Implementeer voor toepassingen waar typografische aanvallen een zorg zijn expliciete tekstdetectie in afbeeldingen met OCR. Als gedetecteerde tekst de classificatie van de afbeelding op onverwachte manieren beïnvloedt, markeer de afbeelding dan voor beoordeling. Dit doorbreekt de typografische aanval door visuele tekst via een aparte pijplijn af te handelen in plaats van via het embeddingmodel.
Cross-modale consistentiecontrole
Wanneer beide modaliteiten beschikbaar zijn (een afbeelding met een bijschrift, of een document met ingebedde afbeeldingen), controleer dan of de embeddings van beide modaliteiten consistent zijn. Een afbeelding waarvan de embedding ver verwijderd is van de embedding van het bijschrift, is mogelijk adversarial gemanipuleerd.
Monitoring van de embedding-ruimte
Monitor de embedding-ruimte op afwijkende patronen. Clusters van nieuwe embeddings in onverwachte regio's, plotselinge veranderingen in embeddingverdelingen, of embeddings die precies op de grens van classificatieregio's vallen, zijn allemaal mogelijke indicatoren van adversarial manipulatie.
Cross-modale embeddingmodellen zijn krachtige tools, maar hun gedeelde embedding-ruimte creëert unieke aanvalsoppervlakken. Elk systeem dat voor beveiligingsrelevante beslissingen op cross-modale gelijkenis vertrouwt — moderatie, retrieval, classificatie — zou beoordeeld moeten worden op de aanvalstechnieken die in deze pagina worden beschreven.