Modeltypes en hun aanvalsoppervlakken
Hoe tekst-, vision-, multimodale, embedding- en codegeneratiemodellen elk unieke kwetsbaarheden en aanvalsoppervlakken voor redteamers met zich meebrengen.
Waarom het modeltype ertoe doet
Niet alle AI-modellen zijn vanuit beveiligingsoogpunt gelijk. Een tekst-only chatbot, een vision-classifier, een codegeneratietool en een embeddingmodel gebruiken allemaal neurale netwerken, maar hun invoer, uitvoer en faalwijzen verschillen drastisch. Het modeltype begrijpen vertelt je welke aanvallen mogelijk zijn, welke waarschijnlijk slagen en welke irrelevant zijn.
Tekstgeneratiemodellen
Tekstgeneratiemodellen (GPT-4, Claude, Llama, Mistral) accepteren tekstinvoer en produceren tekstuitvoer. Ze zijn het meest voorkomende doelwit voor AI-redteaming.
Aanvalsoppervlak
| Vector | Beschrijving | Technieken |
|---|---|---|
| Prompt injection | Adversarial instructies in gebruikersinvoer of opgehaalde content | Directe injectie, indirecte injectie, misbruik van de instructiehiërarchie |
| Jailbreaken | Veiligheidstraining overschrijven om beperkte content te produceren | Rollenspel, encodingtrucs, many-shot, crescendo-aanvallen |
| Extractie van system prompt | Het model zijn systeeminstructies laten onthullen | Instructieverwarring, rolomkering, meta-prompting |
| Extractie van trainingsdata | Het model prompten om gememoriseerde trainingsdata te reproduceren | Letterlijke elicitatie, completion-gebaseerde extractie |
| Outputmanipulatie | Modeluitvoer naar specifieke content sturen | Prefix-injectie, logit-manipulatie (als de API logprobs blootstelt) |
Unieke kenmerken
Tekstmodellen worden getraind op tekstdata op internetschaal, wat betekent dat ze een enorme hoeveelheid informatie hebben gememoriseerd — inclusief mogelijk gevoelige, auteursrechtelijk beschermde en persoonlijke data. Hun natuurlijke-taalinterface maakt ze toegankelijk voor aanvallers zonder technische expertise, en hun generieke karakter betekent dat guardrails een enorm scala aan mogelijke schadelijke uitvoer moeten afdekken.
Vision-modellen
Vision-modellen verwerken beelden als invoer. Hieronder vallen beeldclassifiers (ResNet, ViT), object detectors (YOLO) en beeldbegrijpende modellen die tekstuele beschrijvingen van beelden genereren.
Aanvalsoppervlak
| Vector | Beschrijving | Technieken |
|---|---|---|
| Adversarial verstoring | Onmerkbare pixelwijzigingen die verkeerde classificatie veroorzaken | FGSM, PGD, C&W-aanvallen |
| Adversarial patches | Zichtbare maar schijnbaar onschuldige beeldpatches die specifiek gedrag uitlokken | Stickers in de fysieke wereld, QR-code-achtige adversarial patches |
| Typografische aanvallen | Tekst in beelden die het modelgedrag beïnvloedt | Tekst toevoegen aan beelden die vision-language-modellen als instructies verwerken |
| Steganografische payloads | Verborgen data in beelden die modellen detecteren maar mensen niet | Adversarial content inbedden in beeldmetadata of pixelpatronen |
| Datavergiftiging | Trainingsbeelden corrumperen om backdoors in te bedden | Trigger-patches die een specifieke classificatie veroorzaken wanneer ze aanwezig zijn |
Unieke kenmerken
Vision-modellen werken in een continue invoerruimte (pixelwaarden) in plaats van een discrete (tokens), wat gradient-gebaseerde adversarial verstoringsaanvallen mogelijk maakt die geen directe tegenhanger hebben in tekstmodellen. Ook de toepasbaarheid in de fysieke wereld verschilt — adversarial patches op stopborden of medische beelden kunnen veiligheidskritieke gevolgen hebben.
Multimodale modellen
Multimodale modellen (GPT-4V, Gemini, Claude met vision) accepteren meerdere invoertypen — tekst en beelden, of tekst, beelden en audio. Ze vormen de frontier van zowel capaciteit als aanvalsoppervlak.
Aanvalsoppervlak
Multimodale modellen erven de aanvalsoppervlakken van elke modaliteit die ze ondersteunen, plus volledig nieuwe cross-modale aanvalsvectoren:
| Vector | Beschrijving | Technieken |
|---|---|---|
| Cross-modale injectie | Adversarial instructies in de ene modaliteit (bijv. beeld) die de verwerking van een andere modaliteit (bijv. tekst) beïnvloeden | Tekst in beelden die system prompts overschrijft |
| Modaliteitsmismatch | Misbruik van verschillen in hoe het model verschillende modaliteiten verwerkt | Beelden gebruiken om content over te brengen die in tekst geblokkeerd zou worden |
| Modale verwarring | Het model de relatie tussen modaliteiten verkeerd laten interpreteren | Onschuldige tekst koppelen aan adversarial beelden |
| OCR-misbruik | Het vermogen van het model om tekst in beelden te lezen misbruiken | Prompt injection inbedden in screenshots, documenten of foto's |
| Audio-injectie | Verborgen commando's in audio die het model verwerkt maar mensen niet kunnen horen | Ultrasone of gemaskeerde audiocommando's |
Unieke kenmerken
Het cross-modale aanvalsoppervlak is de bepalende beveiligingsuitdaging van multimodale modellen. Elke modaliteit heeft zijn eigen voorverwerkingspijplijn, en de fusielaag waar modaliteiten worden gecombineerd is een doelwit met hoge waarde. Aanvallen die de kloof misbruiken tussen hoe verschillende modaliteiten worden gefilterd, zijn bijzonder effectief, omdat guardrail-systemen modaliteiten vaak inconsistent afdekken.
Embeddingmodellen
Embeddingmodellen (text-embedding-3, voyage-3, BGE) zetten tekst (of andere data) om in dichte numerieke vectoren. Ze genereren geen tekst — ze produceren vectoren met een vaste dimensie die gebruikt worden voor search, classificatie en RAG.
Aanvalsoppervlak
| Vector | Beschrijving | Technieken |
|---|---|---|
| Embeddingcollision | Adversarial tekst maken die vergelijkbare embeddings produceert als doeltekst | Gradient-gebaseerde optimalisatie, genetische algoritmen |
| Retrieval-poisoning | Documenten injecteren die voor specifieke queries worden opgehaald | SEO-achtige technieken voor vectordatabases |
| Membership inference | Bepalen of specifieke tekst in de trainingsdata zat | Statistische analyse van embeddingafstanden |
| Embeddinginversie | Originele tekst herstellen uit embeddings | Getrainde inversiemodellen die vectoren terugvertalen naar tekst |
| Clustermanipulatie | De ordening van een embeddingruimte corrumperen | Adversarial documenten invoegen die clustergrenzen vervormen |
Unieke kenmerken
Embeddingmodellen vormen het fundament van RAG-systemen. Als een aanvaller kan manipuleren wat er wordt opgehaald, kan hij de uitvoer van het generatieve model beïnvloeden zonder het ooit direct aan te vallen. Embeddingaanvallen zijn indirect maar zeer effectief, omdat ze het vertrouwen misbruiken dat generatieve modellen in opgehaalde content stellen.
Codegeneratiemodellen
Codegeneratiemodellen (Codex, CodeLlama, StarCoder, Copilot) zijn getraind om uitvoerbare code te produceren. Dit creëert een fundamenteel ander risicoprofiel dan tekstgeneratie.
Aanvalsoppervlak
| Vector | Beschrijving | Technieken |
|---|---|---|
| Genereren van kwaadaardige code | Het model verleiden code met kwetsbaarheden of backdoors te produceren | Prompt injection gericht op codecommentaar, manipulatie van specificaties |
| Dependency confusion | Gegenereerde code verwijst naar kwaadaardige packages | De trainingsdata bevat verwijzingen naar packages onder beheer van een aanvaller |
| Code-injectie via context | Kwaadaardige code injecteren via repository-context of RAG | Code-repositories vergiftigen waaruit het model ophaalt |
| Ontsnapping uit de uitvoeringsomgeving | Gegenereerde code die uit zijn sandbox ontsnapt | Shell-commando's, toegang tot het bestandssysteem, netwerkaanroepen in gegenereerde code |
| Supply chain-aanvallen | De trainingsdata van het model compromitteren om hardnekkige codekwetsbaarheden in te bedden | Open-source repositories vergiftigen die in de trainingsdata worden gebruikt |
Unieke kenmerken
Het cruciale verschil met codegeneratiemodellen is dat hun uitvoer vaak wordt uitgevoerd. Schadelijke tekstuitvoer is zorgwekkend; schadelijke code die wordt uitgevoerd is een actieve exploit. Codegeneratiemodellen kampen ook met de unieke uitdaging van package-hallucinatie — het genereren van import-statements voor packages die niet bestaan, die aanvallers kunnen registreren en vullen met malware.
Gespecialiseerde en domeinspecifieke modellen
Verschillende categorieën gespecialiseerde modellen brengen unieke aanvalsoppervlakken met zich mee:
Spraak- en audiomodellen
Modellen als Whisper (speech-to-text) en text-to-speech-systemen kampen met adversarial audio-aanvallen, spoofing van sprekers en injectie van verborgen commando's in audiostromen.
Beeldgeneratiemodellen
Modellen als DALL-E, Stable Diffusion en Midjourney kunnen worden gemanipuleerd om schadelijke beelden te genereren, contentfilters te omzeilen via geobfusqueerde prompts, of auteursrechtelijk beschermd materiaal te reproduceren. Aanvallen richten zich op promptobfuscatie en het ontwijken van classifiers.
Aanbevelingsmodellen
Modellen die content, producten of acties aanbevelen, kunnen worden gemanipuleerd via interactievergiftiging (strategische kliks of beoordelingen), voorkeursinjectie en misbruik van de filterbubbel.
Classificatiemodellen
Binaire of multiclass-classifiers die gebruikt worden voor contentmoderatie, spamdetectie of veiligheidsfiltering zijn doelwitten voor ontwijkingsaanvallen. Technieken zijn onder meer adversarial verstoring, misbruik van beslisgrenzen en manipulatie van trainingsdata.
Je aanvalsstrategie kiezen op basis van het modeltype
| Modeltype | Primaire aanvalsstrategie | Belangrijkste risico |
|---|---|---|
| Tekstgeneratie | Prompt injection, jailbreaken | Schadelijke content, datalekkage |
| Vision | Adversarial verstoring, typografische aanvallen | Verkeerde classificatie, omzeilen van veiligheid |
| Multimodaal | Cross-modale injectie, modaliteitsmismatch | Breedste aanvalsoppervlak, filtergaten |
| Embedding | Retrieval-poisoning, embeddingcollision | Indirecte invloed op downstream-modellen |
| Codegeneratie | Genereren van kwaadaardige code, ontsnapping uit uitvoering | Code-uitvoering, compromittering van de supply chain |
Gerelateerde onderwerpen
- Het AI-landschap — het bredere ecosysteem waarin deze modellen opereren
- Deploymentpatronen — hoe deployment de modeltype-specifieke risico's beïnvloedt
- Adversarial ML: kernconcepten — de theoretische grondslagen van adversarial aanvallen
- Hoe LLM's werken — diepere duik in de binnenkant van tekstgeneratiemodellen
Bronnen
- "Adversarial Examples in the Physical World" - Kurakin et al. (2017) - Baanbrekend werk dat adversarial verstoringen demonstreert die overdraagbaar zijn naar vision-systemen in de fysieke wereld
- "Visual Adversarial Examples Jailbreak Aligned Large Language Models" - Qi et al. (2023) - Onderzoek naar cross-modale aanvallen op multimodale taalmodellen
- "Poisoning Language Models During Instruction Tuning" - Wan et al. (2023) - Technieken om backdoors in te bedden in fine-tuned taalmodellen
- "Asleep at the Keyboard? Assessing the Security of GitHub Copilot's Code Contributions" - Pearce et al. (2022) - Systematische evaluatie van beveiligingskwetsbaarheden in AI-gegenereerde code
Waarom worden multimodale modellen geacht het breedste aanvalsoppervlak te hebben?