AI-specifieke dreigingsmodellering (tradecraft)

Expert7 min lezenBijgewerkt op 2026-03-11

ATLAS, STRIDE en attack tree-methodologieën toepassen op AI-systemen. Analyse van trustgrenzen voor agentic architecturen, dataflow-analyse en MCP-dreigingsmodellering.

threat-modeling atlas stride attack-trees trust-boundaries mcp agentic data-flow

AI-specifieke dreigingsmodellering

Traditionele raamwerken voor dreigingsmodellering zijn gebouwd voor conventionele software. AI-systemen introduceren nieuwe dreigingscategorieën: adversarial inputs, modelmanipulatie, aanvallen op trainingsdata en opkomende risico's van agentic toolgebruik. Deze pagina behandelt hoe je STRIDE en ATLAS aanpast voor AI, attack trees bouwt voor LLM-applicaties en trustgrenzen analyseert in agentic en MCP-architecturen.

MITRE ATLAS-raamwerk

ATLAS biedt de standaardtaxonomie voor AI-specifieke aanvalstechnieken.

ATLAS-tactieken gekoppeld aan red team-fases

ATLAS-tactiek	Red team-fase	Kerntechnieken
Reconnaissance	Scoping & recon	Model fingerprinting, API-probing, trainingsdata-inferentie
Resource Development	Voorbereiding	Adversarial sample-generatie, training van proxy-modellen
Initial Access	Exploitatie	Prompt injection, adversarial inputs, supply chain-compromittering
ML Attack Staging	Exploitatie	Toegang tot inference-API, opzet van datavergiftiging
Execution	Exploitatie	Adversarial ML-aanvallen, modelontwijking, extractie
Persistence	Post-exploitatie	Backdoor-implementatie, manipulatie van trainingsdata
Exfiltration	Post-exploitatie	Modeldiefstal, extractie van trainingsdata
Impact	Impactbeoordeling	Modeldegradatie, denial of service, integriteitschendingen

Belangrijkste ATLAS-technieken

ID	Naam	Mitigaties
AML.T0048	Prompt Injection	Inputfiltering, prompt hardening, outputmonitoring
AML.T0049	Indirect Prompt Injection	Contentsanitisatie, instructiehiërarchie, sandboxing
AML.T0054	LLM Jailbreak	Constitutional AI, RLHF, outputfiltering
AML.T0024	Exfiltration via Inference API	Rate limiting, query-audit, differentiële privacy
AML.T0047	ML Supply Chain Compromise	Artefact-signing, herkomsttracking, dependency-scanning
AML.T0043	Craft Adversarial Data	Inputsanitisatie, anomaliedetectie, menselijke review

Attack trees voor AI-systemen

Structuur

Root Goal: Exfiltrate PII from RAG chatbot
├── OR: Direct prompt injection
│   ├── AND: Extract system prompt (cost: LOW)
│   └── AND: Craft data exfil payload (cost: LOW)
├── OR: Indirect injection via knowledge base
│   ├── AND: Upload poisoned document (cost: MEDIUM)
│   └── AND: Trigger retrieval (cost: LOW)
├── OR: API exploitation
│   ├── AND: Discover hidden endpoints (cost: LOW)
│   └── AND: Bypass authentication (cost: HIGH)
└── OR: Supply chain compromise
    └── Poison embedding model (cost: VERY HIGH)

Attack trees analyseren

Analyse	AND-nodes	OR-nodes
Kosten	Som van kindkosten	Minimum van kindkosten
Kans	Product van kindkansen	1 - product van (1 - kindkansen)
Goedkoopste pad	Moet alle kinderen omvatten	Kies goedkoopste kind

Trustgrens-analyse voor agentic architecturen

Agentic AI-systemen hebben complexe trustgrenzen die fundamenteel verschillen van traditionele applicaties, omdat de LLM zelf optreedt als beslisser die data over grenzen heen routeert.

Agentic trustzones

USER ZONE
  └─▶ ORCHESTRATION ZONE
       ├── Agent Router ──▶ LLM (Planning)
       ├── Tool Router       ◄── CRITICAL BOUNDARY
       └── Memory / Context
            └─▶ TOOL EXECUTION ZONE
                 ├── Code Exec  ├── Web API
                 ├── Database   ├── File I/O
                 ├── Email      └── MCP Server

Dreigingen bij elke grens

Grens	Dreiging	Impact	Belangrijkste controles
Gebruiker → Orchestrator	Directe prompt injection	Agent voert onbedoelde acties uit	Inputsanitisatie, intentieclassificatie
Gebruiker → Orchestrator	Escalatie via roleconfusion	Verhoogde toegang via natuurlijke taal	Rol uit auth, niet uit promptinhoud
Orchestrator → LLM	Manipulatie van contextvenster	Safety-instructies worden weggedrukt	Beheer van contextbudget, herhaling van instructies
Orchestrator → LLM	Injectie van tooldefinities	LLM selecteert verkeerde tools	Statische tooldefinities, schemavalidatie
LLM → Tool Router	Ongeautoriseerde toolaanroep	Privilege-escalatie	Per-gebruiker tool-allowlists, autorisatielaag
LLM → Tool Router	Parameter-injectie	SQLi, command injection, SSRF via tools	Parametervalidatie, parameterized queries
Tool → Extern	Data-exfiltratie	Datalek via verzoek bemiddeld door het model	Outbound URL-allowlisting, DLP, HITL
Tool → Extern	SSRF via webtools	Verkenning van intern netwerk	Blokkeren van interne IP's, DNS rebinding-bescherming
Extern → Context	Indirecte prompt injection	Volledige agent-compromittering via niet-vertrouwde data	Contentsanitisatie, gescheiden verwerkingscontexten

MCP-dreigingsmodellering

MCP creëert nieuwe, specifieke dreigingsoppervlakken die de meeste organisaties nog niet hebben gemodelleerd.

MCP-specifieke dreigingen

Dreiging	Categorie	Waarschijnlijkheid	Impact
Vergiftiging van tooldefinities -- kwaadaardige server injecteert prompt injection in toolbeschrijvingen	Servercompromittering	Gemiddeld	Volledige overname van agentgedrag
Cross-server-escalatie -- server met lager vertrouwen gebruikt gedeelde context om data van server met hoger vertrouwen te benaderen	Schending van trustgrens	Hoog	Privilege-escalatie
Resource-URI-injectie -- path traversal- of SSRF-payloads in MCP-resource-URI's	Inputvalidatie	Hoog	Ongeautoriseerde datatoegang
Sampling-manipulatie -- kwaadaardige server gebruikt MCP-sampling om prompts te injecteren tegen de host-LLM	Misbruik van sampling	Gemiddeld	Informatielek, quotum-uitputting
Aanvallen op transportlaag -- HTTP zonder TLS staat onderschepping van toolaanroepen toe	Communicatiebeveiliging	Gemiddeld	Man-in-the-middle

Checklist MCP-mitigaties

Allowlisting van tooldefinities en integriteitsverificatie
Contextisolatie per server
URI-allowlist-validatie met pad-canonicalisatie
Goedkeuring van gebruiker vereist voor sampling-verzoeken
Rate-limit sampling-aanroepen per server
TLS afdwingen voor HTTP-transport; mutual TLS voor high-security
MCP-serverversies pinnen en checksums verifiëren

Dataflow-dreigingsmatrix

Volg voor AI-systemen hoe data door de architectuur stroomt en identificeer waar niet-vertrouwde data het modelgedrag kan beïnvloeden of waar gevoelige uitvoer kan lekken.

Dataflow	Vertrouwelijkheidsdreiging	Integriteitsdreiging	Beschikbaarheidsdreiging
Gebruiker → Model	N.v.t.	Prompt injection	Context flooding
Systeemprompt → Model	Extractie	Overschrijven via injectie	Context-verdringing
RAG → Model	Data-exfiltratie	Indirecte injectie	Vergiftigde retrieval
Model → Tool	Gevoelige data in parameters	Parameter-injectie	Oneindige tool-loops
Tool → Model	Lekkage van responsdata	Manipulatie van respons	Timeout/hang
Model → Gebruiker	Lekkage van trainingsdata	Hallucinatie	Refusal DoS
Memory → Model	Cross-sessie-lekkage	Memory-vergiftiging	Memory-uitputting

Verwante onderwerpen

Gevorderde recon — Dreigingsmodellen sturen recon-prioriteiten en -methodologie
Volledige opdracht — End-to-end-opdrachtmethodologie past dreigingsmodellen toe

Knowledge Check

In een attack tree voor een RAG-chatbot is het goedkoopste aanvalspad meestal:

Referenties

MITRE ATLAS (Adversarial Threat Landscape for AI Systems) — AI-specifiek dreigingsraamwerk
OWASP AI Security and Privacy Guide — Uitgebreide gids voor AI-dreigingsmodellering
NIST AI Risk Management Framework (AI RMF 1.0, 2023) — Risicoraamwerk voor AI-dreigingsbeoordeling

AI-specifieke dreigingsmodellering (tradecraft)

Expert7 min lezenBijgewerkt op 2026-03-11

ATLAS, STRIDE en attack tree-methodologieën toepassen op AI-systemen. Analyse van trustgrenzen voor agentic architecturen, dataflow-analyse en MCP-dreigingsmodellering.

threat-modeling atlas stride attack-trees trust-boundaries mcp agentic data-flow

AI-specifieke dreigingsmodellering

MITRE ATLAS-raamwerk

ATLAS biedt de standaardtaxonomie voor AI-specifieke aanvalstechnieken.

ATLAS-tactieken gekoppeld aan red team-fases

ATLAS-tactiek	Red team-fase	Kerntechnieken
Reconnaissance	Scoping & recon	Model fingerprinting, API-probing, trainingsdata-inferentie
Resource Development	Voorbereiding	Adversarial sample-generatie, training van proxy-modellen
Initial Access	Exploitatie	Prompt injection, adversarial inputs, supply chain-compromittering
ML Attack Staging	Exploitatie	Toegang tot inference-API, opzet van datavergiftiging
Execution	Exploitatie	Adversarial ML-aanvallen, modelontwijking, extractie
Persistence	Post-exploitatie	Backdoor-implementatie, manipulatie van trainingsdata
Exfiltration	Post-exploitatie	Modeldiefstal, extractie van trainingsdata
Impact	Impactbeoordeling	Modeldegradatie, denial of service, integriteitschendingen

Belangrijkste ATLAS-technieken

ID	Naam	Mitigaties
AML.T0048	Prompt Injection	Inputfiltering, prompt hardening, outputmonitoring
AML.T0049	Indirect Prompt Injection	Contentsanitisatie, instructiehiërarchie, sandboxing
AML.T0054	LLM Jailbreak	Constitutional AI, RLHF, outputfiltering
AML.T0024	Exfiltration via Inference API	Rate limiting, query-audit, differentiële privacy
AML.T0047	ML Supply Chain Compromise	Artefact-signing, herkomsttracking, dependency-scanning
AML.T0043	Craft Adversarial Data	Inputsanitisatie, anomaliedetectie, menselijke review

Attack trees voor AI-systemen

Structuur

Root Goal: Exfiltrate PII from RAG chatbot
├── OR: Direct prompt injection
│   ├── AND: Extract system prompt (cost: LOW)
│   └── AND: Craft data exfil payload (cost: LOW)
├── OR: Indirect injection via knowledge base
│   ├── AND: Upload poisoned document (cost: MEDIUM)
│   └── AND: Trigger retrieval (cost: LOW)
├── OR: API exploitation
│   ├── AND: Discover hidden endpoints (cost: LOW)
│   └── AND: Bypass authentication (cost: HIGH)
└── OR: Supply chain compromise
    └── Poison embedding model (cost: VERY HIGH)

Attack trees analyseren

Analyse	AND-nodes	OR-nodes
Kosten	Som van kindkosten	Minimum van kindkosten
Kans	Product van kindkansen	1 - product van (1 - kindkansen)
Goedkoopste pad	Moet alle kinderen omvatten	Kies goedkoopste kind

Trustgrens-analyse voor agentic architecturen

Agentic AI-systemen hebben complexe trustgrenzen die fundamenteel verschillen van traditionele applicaties, omdat de LLM zelf optreedt als beslisser die data over grenzen heen routeert.

Agentic trustzones

USER ZONE
  └─▶ ORCHESTRATION ZONE
       ├── Agent Router ──▶ LLM (Planning)
       ├── Tool Router       ◄── CRITICAL BOUNDARY
       └── Memory / Context
            └─▶ TOOL EXECUTION ZONE
                 ├── Code Exec  ├── Web API
                 ├── Database   ├── File I/O
                 ├── Email      └── MCP Server

Dreigingen bij elke grens

Grens	Dreiging	Impact	Belangrijkste controles
Gebruiker → Orchestrator	Directe prompt injection	Agent voert onbedoelde acties uit	Inputsanitisatie, intentieclassificatie
Gebruiker → Orchestrator	Escalatie via roleconfusion	Verhoogde toegang via natuurlijke taal	Rol uit auth, niet uit promptinhoud
Orchestrator → LLM	Manipulatie van contextvenster	Safety-instructies worden weggedrukt	Beheer van contextbudget, herhaling van instructies
Orchestrator → LLM	Injectie van tooldefinities	LLM selecteert verkeerde tools	Statische tooldefinities, schemavalidatie
LLM → Tool Router	Ongeautoriseerde toolaanroep	Privilege-escalatie	Per-gebruiker tool-allowlists, autorisatielaag
LLM → Tool Router	Parameter-injectie	SQLi, command injection, SSRF via tools	Parametervalidatie, parameterized queries
Tool → Extern	Data-exfiltratie	Datalek via verzoek bemiddeld door het model	Outbound URL-allowlisting, DLP, HITL
Tool → Extern	SSRF via webtools	Verkenning van intern netwerk	Blokkeren van interne IP's, DNS rebinding-bescherming
Extern → Context	Indirecte prompt injection	Volledige agent-compromittering via niet-vertrouwde data	Contentsanitisatie, gescheiden verwerkingscontexten

MCP-dreigingsmodellering

MCP creëert nieuwe, specifieke dreigingsoppervlakken die de meeste organisaties nog niet hebben gemodelleerd.

MCP-specifieke dreigingen

Dreiging	Categorie	Waarschijnlijkheid	Impact
Vergiftiging van tooldefinities -- kwaadaardige server injecteert prompt injection in toolbeschrijvingen	Servercompromittering	Gemiddeld	Volledige overname van agentgedrag
Cross-server-escalatie -- server met lager vertrouwen gebruikt gedeelde context om data van server met hoger vertrouwen te benaderen	Schending van trustgrens	Hoog	Privilege-escalatie
Resource-URI-injectie -- path traversal- of SSRF-payloads in MCP-resource-URI's	Inputvalidatie	Hoog	Ongeautoriseerde datatoegang
Sampling-manipulatie -- kwaadaardige server gebruikt MCP-sampling om prompts te injecteren tegen de host-LLM	Misbruik van sampling	Gemiddeld	Informatielek, quotum-uitputting
Aanvallen op transportlaag -- HTTP zonder TLS staat onderschepping van toolaanroepen toe	Communicatiebeveiliging	Gemiddeld	Man-in-the-middle

Checklist MCP-mitigaties

Allowlisting van tooldefinities en integriteitsverificatie
Contextisolatie per server
URI-allowlist-validatie met pad-canonicalisatie
Goedkeuring van gebruiker vereist voor sampling-verzoeken
Rate-limit sampling-aanroepen per server
TLS afdwingen voor HTTP-transport; mutual TLS voor high-security
MCP-serverversies pinnen en checksums verifiëren

Dataflow-dreigingsmatrix

Volg voor AI-systemen hoe data door de architectuur stroomt en identificeer waar niet-vertrouwde data het modelgedrag kan beïnvloeden of waar gevoelige uitvoer kan lekken.

Dataflow	Vertrouwelijkheidsdreiging	Integriteitsdreiging	Beschikbaarheidsdreiging
Gebruiker → Model	N.v.t.	Prompt injection	Context flooding
Systeemprompt → Model	Extractie	Overschrijven via injectie	Context-verdringing
RAG → Model	Data-exfiltratie	Indirecte injectie	Vergiftigde retrieval
Model → Tool	Gevoelige data in parameters	Parameter-injectie	Oneindige tool-loops
Tool → Model	Lekkage van responsdata	Manipulatie van respons	Timeout/hang
Model → Gebruiker	Lekkage van trainingsdata	Hallucinatie	Refusal DoS
Memory → Model	Cross-sessie-lekkage	Memory-vergiftiging	Memory-uitputting

Verwante onderwerpen

Gevorderde recon — Dreigingsmodellen sturen recon-prioriteiten en -methodologie
Volledige opdracht — End-to-end-opdrachtmethodologie past dreigingsmodellen toe

Knowledge Check

In een attack tree voor een RAG-chatbot is het goedkoopste aanvalspad meestal:

Referenties

MITRE ATLAS (Adversarial Threat Landscape for AI Systems) — AI-specifiek dreigingsraamwerk
OWASP AI Security and Privacy Guide — Uitgebreide gids voor AI-dreigingsmodellering
NIST AI Risk Management Framework (AI RMF 1.0, 2023) — Risicoraamwerk voor AI-dreigingsbeoordeling

AI-specifieke dreigingsmodellering (tradecraft)

Gerelateerde artikelen

AI-specifieke dreigingsmodellering (tradecraft)

Gerelateerde artikelen