AI-specifieke dreigingsmodellering (tradecraft)
ATLAS, STRIDE en attack tree-methodologieën toepassen op AI-systemen. Analyse van trustgrenzen voor agentic architecturen, dataflow-analyse en MCP-dreigingsmodellering.
AI-specifieke dreigingsmodellering
Traditionele raamwerken voor dreigingsmodellering zijn gebouwd voor conventionele software. AI-systemen introduceren nieuwe dreigingscategorieën: adversarial inputs, modelmanipulatie, aanvallen op trainingsdata en opkomende risico's van agentic toolgebruik. Deze pagina behandelt hoe je STRIDE en ATLAS aanpast voor AI, attack trees bouwt voor LLM-applicaties en trustgrenzen analyseert in agentic en MCP-architecturen.
MITRE ATLAS-raamwerk
ATLAS biedt de standaardtaxonomie voor AI-specifieke aanvalstechnieken.
ATLAS-tactieken gekoppeld aan red team-fases
| ATLAS-tactiek | Red team-fase | Kerntechnieken |
|---|---|---|
| Reconnaissance | Scoping & recon | Model fingerprinting, API-probing, trainingsdata-inferentie |
| Resource Development | Voorbereiding | Adversarial sample-generatie, training van proxy-modellen |
| Initial Access | Exploitatie | Prompt injection, adversarial inputs, supply chain-compromittering |
| ML Attack Staging | Exploitatie | Toegang tot inference-API, opzet van datavergiftiging |
| Execution | Exploitatie | Adversarial ML-aanvallen, modelontwijking, extractie |
| Persistence | Post-exploitatie | Backdoor-implementatie, manipulatie van trainingsdata |
| Exfiltration | Post-exploitatie | Modeldiefstal, extractie van trainingsdata |
| Impact | Impactbeoordeling | Modeldegradatie, denial of service, integriteitschendingen |
Belangrijkste ATLAS-technieken
| ID | Naam | Mitigaties |
|---|---|---|
| AML.T0048 | Prompt Injection | Inputfiltering, prompt hardening, outputmonitoring |
| AML.T0049 | Indirect Prompt Injection | Contentsanitisatie, instructiehiërarchie, sandboxing |
| AML.T0054 | LLM Jailbreak | Constitutional AI, RLHF, outputfiltering |
| AML.T0024 | Exfiltration via Inference API | Rate limiting, query-audit, differentiële privacy |
| AML.T0047 | ML Supply Chain Compromise | Artefact-signing, herkomsttracking, dependency-scanning |
| AML.T0043 | Craft Adversarial Data | Inputsanitisatie, anomaliedetectie, menselijke review |
Attack trees voor AI-systemen
Structuur
Root Goal: Exfiltrate PII from RAG chatbot
├── OR: Direct prompt injection
│ ├── AND: Extract system prompt (cost: LOW)
│ └── AND: Craft data exfil payload (cost: LOW)
├── OR: Indirect injection via knowledge base
│ ├── AND: Upload poisoned document (cost: MEDIUM)
│ └── AND: Trigger retrieval (cost: LOW)
├── OR: API exploitation
│ ├── AND: Discover hidden endpoints (cost: LOW)
│ └── AND: Bypass authentication (cost: HIGH)
└── OR: Supply chain compromise
└── Poison embedding model (cost: VERY HIGH)Attack trees analyseren
| Analyse | AND-nodes | OR-nodes |
|---|---|---|
| Kosten | Som van kindkosten | Minimum van kindkosten |
| Kans | Product van kindkansen | 1 - product van (1 - kindkansen) |
| Goedkoopste pad | Moet alle kinderen omvatten | Kies goedkoopste kind |
Trustgrens-analyse voor agentic architecturen
Agentic AI-systemen hebben complexe trustgrenzen die fundamenteel verschillen van traditionele applicaties, omdat de LLM zelf optreedt als beslisser die data over grenzen heen routeert.
Agentic trustzones
USER ZONE
└─▶ ORCHESTRATION ZONE
├── Agent Router ──▶ LLM (Planning)
├── Tool Router ◄── CRITICAL BOUNDARY
└── Memory / Context
└─▶ TOOL EXECUTION ZONE
├── Code Exec ├── Web API
├── Database ├── File I/O
├── Email └── MCP ServerDreigingen bij elke grens
| Grens | Dreiging | Impact | Belangrijkste controles |
|---|---|---|---|
| Gebruiker → Orchestrator | Directe prompt injection | Agent voert onbedoelde acties uit | Inputsanitisatie, intentieclassificatie |
| Gebruiker → Orchestrator | Escalatie via roleconfusion | Verhoogde toegang via natuurlijke taal | Rol uit auth, niet uit promptinhoud |
| Orchestrator → LLM | Manipulatie van contextvenster | Safety-instructies worden weggedrukt | Beheer van contextbudget, herhaling van instructies |
| Orchestrator → LLM | Injectie van tooldefinities | LLM selecteert verkeerde tools | Statische tooldefinities, schemavalidatie |
| LLM → Tool Router | Ongeautoriseerde toolaanroep | Privilege-escalatie | Per-gebruiker tool-allowlists, autorisatielaag |
| LLM → Tool Router | Parameter-injectie | SQLi, command injection, SSRF via tools | Parametervalidatie, parameterized queries |
| Tool → Extern | Data-exfiltratie | Datalek via verzoek bemiddeld door het model | Outbound URL-allowlisting, DLP, HITL |
| Tool → Extern | SSRF via webtools | Verkenning van intern netwerk | Blokkeren van interne IP's, DNS rebinding-bescherming |
| Extern → Context | Indirecte prompt injection | Volledige agent-compromittering via niet-vertrouwde data | Contentsanitisatie, gescheiden verwerkingscontexten |
MCP-dreigingsmodellering
MCP creëert nieuwe, specifieke dreigingsoppervlakken die de meeste organisaties nog niet hebben gemodelleerd.
MCP-specifieke dreigingen
| Dreiging | Categorie | Waarschijnlijkheid | Impact |
|---|---|---|---|
| Vergiftiging van tooldefinities -- kwaadaardige server injecteert prompt injection in toolbeschrijvingen | Servercompromittering | Gemiddeld | Volledige overname van agentgedrag |
| Cross-server-escalatie -- server met lager vertrouwen gebruikt gedeelde context om data van server met hoger vertrouwen te benaderen | Schending van trustgrens | Hoog | Privilege-escalatie |
| Resource-URI-injectie -- path traversal- of SSRF-payloads in MCP-resource-URI's | Inputvalidatie | Hoog | Ongeautoriseerde datatoegang |
| Sampling-manipulatie -- kwaadaardige server gebruikt MCP-sampling om prompts te injecteren tegen de host-LLM | Misbruik van sampling | Gemiddeld | Informatielek, quotum-uitputting |
| Aanvallen op transportlaag -- HTTP zonder TLS staat onderschepping van toolaanroepen toe | Communicatiebeveiliging | Gemiddeld | Man-in-the-middle |
Checklist MCP-mitigaties
- Allowlisting van tooldefinities en integriteitsverificatie
- Contextisolatie per server
- URI-allowlist-validatie met pad-canonicalisatie
- Goedkeuring van gebruiker vereist voor sampling-verzoeken
- Rate-limit sampling-aanroepen per server
- TLS afdwingen voor HTTP-transport; mutual TLS voor high-security
- MCP-serverversies pinnen en checksums verifiëren
Dataflow-dreigingsmatrix
Volg voor AI-systemen hoe data door de architectuur stroomt en identificeer waar niet-vertrouwde data het modelgedrag kan beïnvloeden of waar gevoelige uitvoer kan lekken.
| Dataflow | Vertrouwelijkheidsdreiging | Integriteitsdreiging | Beschikbaarheidsdreiging |
|---|---|---|---|
| Gebruiker → Model | N.v.t. | Prompt injection | Context flooding |
| Systeemprompt → Model | Extractie | Overschrijven via injectie | Context-verdringing |
| RAG → Model | Data-exfiltratie | Indirecte injectie | Vergiftigde retrieval |
| Model → Tool | Gevoelige data in parameters | Parameter-injectie | Oneindige tool-loops |
| Tool → Model | Lekkage van responsdata | Manipulatie van respons | Timeout/hang |
| Model → Gebruiker | Lekkage van trainingsdata | Hallucinatie | Refusal DoS |
| Memory → Model | Cross-sessie-lekkage | Memory-vergiftiging | Memory-uitputting |
Verwante onderwerpen
- Gevorderde recon — Dreigingsmodellen sturen recon-prioriteiten en -methodologie
- Volledige opdracht — End-to-end-opdrachtmethodologie past dreigingsmodellen toe
In een attack tree voor een RAG-chatbot is het goedkoopste aanvalspad meestal:
Referenties
- MITRE ATLAS (Adversarial Threat Landscape for AI Systems) — AI-specifiek dreigingsraamwerk
- OWASP AI Security and Privacy Guide — Uitgebreide gids voor AI-dreigingsmodellering
- NIST AI Risk Management Framework (AI RMF 1.0, 2023) — Risicoraamwerk voor AI-dreigingsbeoordeling