Misbruik van agents en agentic systemen
Beveiligingsoverzicht van autonome AI-agents, met aandacht voor het vergrote aanvalsoppervlak dat ontstaat door tool-gebruik, persistent geheugen, redeneren in meerdere stappen en coördinatie tussen meerdere agents.
AI-agents vormen een fundamentele vergroting van het aanvalsoppervlak van het LLM. Waar een eenvoudige chatbot alleen tekst kan produceren, kan een agent code uitvoeren, op het web browsen, e-mails versturen, bestanden wijzigen en met externe diensten communiceren. Elke tool waar een agent toegang toe heeft, wordt een potentiële aanvalsvector.
Wat agents anders maakt
Traditionele LLM-applicaties zijn stateless systemen: tekst erin, tekst eruit. Agents voegen daar het volgende aan toe:
- Tool-toegang — Functies die de agent kan aanroepen (bestandssysteem, API's, databases, code-uitvoering)
- Persistent geheugen — Toestand die meegaat tussen gesprekken en sessies
- Redeneren in meerdere stappen — De agent plant en voert reeksen acties uit
- Interactie met de omgeving — De agent leest van en schrijft naar externe systemen
- Autonomie — De agent neemt beslissingen zonder dat elke stap menselijke goedkeuring vereist
Elk van deze mogelijkheden creëert nieuwe aanvalsoppervlakken die niet bestaan in eenvoudige chat-interfaces.
Het aanvalsoppervlak van agents
┌─────────────────────┐
│ Tool Definitions │ ← Tool poisoning
└──────────┬──────────┘
│
User Input ──→ Agent LLM ──→ Tool Calls ──→ External Systems
↑ │ │ │
│ ┌────┴────┐ ┌────┴────┐ ┌────┴────┐
│ │ Memory │ │ Results │ │ Side │
│ │ Store │ │ Parsing │ │ Effects │
│ └─────────┘ └─────────┘ └─────────┘
│ ↑ Memory ↑ Indirect ↑ Real-world
│ poisoning injection impact
└──── Prompt injection via any input channel
| Aanvalscategorie | Beschrijving | Impact |
|---|---|---|
| Misbruik van tools | Manipuleer welke tools de agent aanroept en met welke parameters | Code-uitvoering, data-exfiltratie, privilege-escalatie |
| CoT-manipulatie | Stuur het redeneerproces van de agent zodat het tot door de aanvaller gewenste conclusies komt | Subtiele gedragsverandering, kaping van doelen |
| Aanvallen op multi-agent systemen | Misbruik vertrouwensrelaties tussen samenwerkende agents | Kettingreacties van fouten, injectie tussen agents |
| Memory-poisoning | Injecteer persistente instructies in het geheugen van de agent | Langdurige backdoors, aanvallen die over sessies heen werken |
Het MCP-aanvalsoppervlak
Het Model Context Protocol (MCP) standaardiseert hoe agents tools ontdekken en aanroepen. MCP introduceert specifieke aanvalsvectoren:
- Tool-enumeratie — Een aanvaller kan zien welke tools beschikbaar zijn voor een agent
- Manipulatie van tool-beschrijvingen — Kwaadaardige tool-beschrijvingen kunnen het gedrag van de agent sturen
- Parameter-injectie — Geprepareerde invoer zorgt ervoor dat de agent door de aanvaller gecontroleerde waarden aan tools doorgeeft
- Aanvallen op transportniveau — Man-in-the-middle op het stdio- of HTTP/SSE-transport
Kernprincipes voor agent-redteaming
- Breng eerst het tool-oppervlak in kaart — Voordat je injecties test, breng je elke tool in kaart waar de agent toegang toe heeft en begrijp je de mogelijkheden en rechten ervan
- Tools vergroten de impact van injectie — Elke tool is een potentieel exfiltratiekanaal of een destructieve mogelijkheid
- Geheugen zorgt voor persistentie — Injecties die in het geheugen van de agent zijn opgeslagen, blijven bestaan na de huidige sessie
- Vertrouwensgrenzen zijn impliciet — Agents vertrouwen tool-uitvoer en andere agents doorgaans zonder verificatie
- Autonomie vergroot de blast radius — Agents die handelen zonder menselijke bevestiging zijn doelwitten met grotere impact
Leerpad
Begin met Misbruik van tool-gebruik om de meest voorkomende en impactvolle aanvalsvector op agents te begrijpen, ga daarna door naar Chain-of-Thought-manipulatie voor subtielere technieken, en sluit af met Aanvallen op multi-agent systemen voor de meest complexe scenario's.
Gerelateerde onderwerpen
- Prompt injection en jailbreaks — De fundamentele kwetsbaarheid die misbruik van agents versterkt
- Agent-architecturen — Inzicht in ReAct, tool-gebruik en geheugenpatronen die het aanvalsoppervlak creëren
- Lab: Misbruik van agents — Praktische oefening in het misbruiken van tool-gebruik en redeneren van agents
- API-beveiliging — Het beveiligen van de tool-interfaces en transportlagen waar agents van afhankelijk zijn
- MCP-beveiliging — Aanvalsvectoren die specifiek zijn voor het Model Context Protocol
Referenties
- Greshake, K. et al. (2023). "Not What You've Signed Up For: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection"
- Zhan, Q. et al. (2024). "InjecAgent: Benchmarking Indirect Prompt Injections in Tool-Integrated LLM Agents"
- Ruan, Y. et al. (2024). "Identifying the Risks of LM Agents with an LM-Emulated Sandbox"
- OWASP (2025). OWASP Top 10 for LLM Applications
- Xi, Z. et al. (2023). "The Rise and Potential of Large Language Model Based Agents: A Survey"
Waarom verandert tool-toegang het risicoprofiel van prompt injection fundamenteel?