Multimodale beveiliging
Beveiligingsbeoordeling van multimodale AI-systemen die afbeeldingen, audio, video en cross-modale invoer verwerken, met vision-language-modellen, spraaksystemen, video-analyse en cross-modale aanvalstechnieken.
Moderne AI-systemen verwerken steeds vaker meerdere soorten invoer tegelijk. Vision-language-modellen (VLM's) analyseren afbeeldingen naast tekst. Spraak-naar-tekst-systemen zetten audio om in invoer voor taalmodellen. Video-begripsystemen verwerken temporele reeksen van frames. Documentverwerking combineert OCR, lay-outanalyse en tekstextractie. Elke extra modaliteit voegt een invoerkanaal toe dat vijandige inhoud kan dragen, en de interacties tussen modaliteiten creëren aanvalsoppervlakken die kwalitatief verschillen van die in alleen-tekst-systemen.
De beveiligingsimplicaties van multimodale verwerking zijn ingrijpend. Op tekst gebaseerde verdedigingen -- invoerfilters, blocklists, semantische classifiers -- werken op tekst en negeren doorgaans andere modaliteiten volledig. Een aanvaller die instructies inbedt in een afbeelding, audiofragment of videoframe omzeilt de hele tekstgerichte defensieve stack. Het model verwerkt deze niet-tekstuele invoer met dezelfde mogelijkheden voor taalbegrip die het op tekst toepast, maar zonder de defensieve controle. Deze asymmetrie tussen waar verdedigingen worden ingezet en waar aanvallen kunnen ontstaan, is de fundamentele kwetsbaarheid in multimodale systemen.
Hoe multimodale verwerking kwetsbaarheden creëert
De kernkwetsbaarheid in multimodale systemen is de convergentie van meerdere invoerkanalen in een gedeelde representatieruimte. Wanneer een VLM een afbeelding verwerkt, zet het visuele inhoud om in hetzelfde type tokenrepresentaties dat tekst produceert. Dit betekent dat tekst die in afbeeldingen is ingebed -- of die nu zichtbaar is voor mensen of verborgen via vijandige perturbaties -- door het taalmodel wordt verwerkt alsof het directe tekstinvoer is, maar zonder door tekstgerichte invoerfilters te gaan.
Typografische aanvallen misbruiken dit door tekstinstructies direct in afbeeldingen te plaatsen. De OCR-mogelijkheden van het model lezen deze tekst en nemen die op in hun redenering. Een schijnbaar onschuldige afbeelding van een document, whiteboard of schermafbeelding kan geïnjecteerde instructies bevatten die de systeemprompt overschrijven. Deze aanvallen zijn triviaal uit te voeren, vereisen geen technische verfijning en werken betrouwbaar tegen huidige VLM's.
Vijandige perturbaties zijn geavanceerder. In plaats van zichtbare tekst in afbeeldingen te plaatsen, wijzigen deze aanvallen pixelwaarden op manieren die onmerkbaar zijn voor mensen maar betekenisvol voor het model. Een foto die er voor een menselijke beoordelaar volkomen normaal uitziet, kan een ingebedde instructie dragen die het model opvolgt. Het genereren van effectieve perturbaties vereist toegang tot de visuele encoder van het model (of een overdraagbaar surrogaat), maar de resulterende aanvallen zijn vrijwel onmogelijk te detecteren via menselijke beoordeling.
Audio-aanvallen misbruiken spraakherkenningspipelines. Vijandige audio kan commando's inbedden die spraak-naar-tekst-systemen transcriberen maar die menselijke luisteraars niet kunnen waarnemen. Voice cloning kan geautoriseerde gebruikers nabootsen in spraakgeauthenticeerde systemen. Deze aanvallen zijn bijzonder zorgwekkend voor spraakgestuurde AI-agents die acties uitvoeren op basis van gesproken commando's.
Video-aanvallen voegen de temporele dimensie toe. Frame-injectie bedt vijandige inhoud in in specifieke frames van een video die het model verwerkt, maar die een menselijke kijker zou moeten pauzeren om op te merken. Temporele manipulatie misbruikt hoe modellen videoreeksen samplen en verwerken, waardoor ze zich mogelijk richten op door de aanvaller gecontroleerde frames terwijl ze legitieme inhoud negeren.
Cross-modale aanvalsketens
De krachtigste multimodale aanvallen schakelen kwetsbaarheden over modaliteiten heen aaneen. Een document dat zowel tekst als afbeeldingen bevat, kan het afbeeldingskanaal gebruiken om instructies te injecteren die de tekstinhoud overschrijven. Een video met een audiospoor kan visuele en auditieve vijandige signalen combineren. Deze cross-modale aanvallen zijn moeilijker te verdedigen omdat ze gecoördineerde detectie over alle invoerkanalen tegelijk vereisen.
Cross-modale aanvallen misbruiken ook informatielekkage tussen modaliteiten. Wanneer een model een afbeelding verwerkt en er tekst over genereert, kan de tekstuitvoer informatie over de inhoud van de afbeelding onthullen op manieren die uitvoerfilters omzeilen die voor directe vragen zijn ontworpen. Dit type indirecte informatie-extractie is een groeiende zorg voor systemen die gevoelige visuele inhoud verwerken.
Wat je leert in deze sectie
- Vision-Language-modellen -- VLM-architectuur en -alignment, technieken voor afbeeldingsinjectie, OCR- en typografische aanvallen, generatie van vijandige afbeeldingen, en VLM-specifieke jailbreaks
- Audio- & spraakmodellen -- Kwetsbaarheden van spraakherkenning, generatie van vijandige audio, risico's van voice cloning, en praktische audio-aanvalstechnieken
- Video- & temporele modellen -- Kwetsbaarheden van videobegrip, temporele manipulatie, injectie van videoframes, en aanvallen tegen videoverwerkingspipelines
- Cross-modale aanvallen -- Op documenten gebaseerde aanvallen, multimodale jailbreaks, technieken voor modaliteitsoverbrugging, informatielekkage over modaliteiten heen, tekst-naar-afbeelding-aanvallen, en evaluatie van multimodale verdediging
Vereisten
Deze sectie bouwt voort op verschillende fundamentele onderwerpen:
- Grondbeginselen van prompt-injectie uit de sectie Prompt-injectie -- multimodale aanvallen breiden injectie uit naar niet-tekstuele kanalen
- Kennis van embeddings uit Embeddings & vectorsystemen -- begrijpen hoe visuele en tekst-embeddings representatieruimtes delen
- Basis-beeldverwerking -- Bekendheid met afbeeldingsformaten, pixelmanipulatie en basisconcepten van computervisie
- Python-tooling -- NumPy, PIL/Pillow en basis-ML-bibliotheken voor het genereren van vijandige voorbeelden