Agentic exploitatie
Uitgebreide behandeling van beveiligingskwetsbaarheden in agentic AI-systemen, waaronder MCP-toolexploitatie, multi-agent-protocolaanvallen, misbruik van function calling, het compromitteren van geheugensystemen, framework-specifieke zwakheden en aanvallen op workflowpatronen.
Agentic AI-systemen vertegenwoordigen de meest beveiligingskritieke evolutie in hoe grote taalmodellen worden ingezet. In tegenstelling tot eenvoudige chatbots die tekst produceren als reactie op vragen, geven agentic systemen LLM's de mogelijkheid om acties in de echte wereld te ondernemen: code uitvoeren, op het web surfen, e-mails versturen, databases bevragen, bestanden wijzigen en interactie hebben met externe API's. Elk van deze mogelijkheden transformeert wat anders een tekstgeneratiekwetsbaarheid zou zijn in een pad naar reële schade.
De verschuiving van passieve tekstgeneratie naar actief toolgebruik verandert het dreigingsmodel fundamenteel. Een prompt-injectie tegen een chatbot kan ongepaste tekst produceren. Dezelfde injectie tegen een agent met toegang tot het bestandssysteem, e-mailmogelijkheden en databasegegevens kan gevoelige data exfiltreren, kritieke records wijzigen of persistente achterdeuren opzetten. De impactradius van elke kwetsbaarheid schaalt mee met de rechten die aan de agent zijn toegekend.
De agentic aanvalsstack
Moderne agentic systemen bestaan uit meerdere lagen, elk met onderscheidende aanvalsoppervlakken. Het begrijpen van deze stack is essentieel voor systematische red teaming.
Op de protocollaag definiëren standaarden zoals het Model Context Protocol (MCP) en het Agent-to-Agent (A2A) protocol hoe agents tools en andere agents ontdekken, aanroepen en ermee communiceren. Deze protocollen introduceren aanvalsoppervlakken die niet bestaan in eenvoudige op API gebaseerde implementaties: vergiftiging van toolbeschrijvingen, man-in-the-middle-aanvallen op transportniveau en schendingen van vertrouwensgrenzen tussen agents die ervan uitgaan dat communicatie met peers betrouwbaar is.
Op de interfacelaag stellen function-calling-mechanismen gestructureerde API's bloot die agents aanroepen op basis van natuurlijke taalinstructies. De vertaling van ongestructureerde tekst naar gestructureerde function-calls creëert injectiekansen bij elke stap: schemamanipulatie, parameterinjectie, resultaatvergiftiging en misbruik van recursieve calls. Aanvallers die begrijpen hoe een LLM function-calls selecteert en parametriseert, kunnen de agent sturen om de juiste tools met de verkeerde argumenten aan te roepen, of geheel de verkeerde tools.
Op de toestandslaag bewaren geheugensystemen van agents informatie over gesprekken en sessies heen. Geheugenvergiftigingsaanvallen injecteren kwaadaardige instructies die de grenzen van het contextvenster overleven, waardoor langlevende achterdeuren ontstaan. In tegenstelling tot prompt-injectie, die actieve exploitatie tijdens een sessie vereist, kan geheugenvergiftiging een eenmalige aanval zijn met persistente effecten over alle toekomstige interacties heen.
Exploitatie op protocolniveau
De standaardisatie van agentcommunicatieprotocollen heeft nieuwe klassen van kwetsbaarheden gecreëerd. MCP, dat een uniforme interface biedt voor agents om tools te ontdekken en aan te roepen, introduceert specifieke aanvalsvectoren rond toolenumeratie, manipulatie van beschrijvingen en transportbeveiliging. Wanneer een agent een MCP-server bevraagt naar beschikbare tools, kunnen de geretourneerde toolbeschrijvingen adversariële instructies bevatten die het latere gedrag van de agent beïnvloeden. Dit is bijzonder gevaarlijk omdat toolbeschrijvingen vaak worden behandeld als vertrouwde context op systeemniveau in plaats van als onvertrouwde gebruikersinvoer.
Het A2A-protocol, ontworpen voor communicatie tussen agents, creëert uitdagingen rond vertrouwensgrenzen op schaal. Wanneer meerdere agents coördineren om complexe taken te voltooien, vertrouwt elke agent doorgaans berichten van andere agents alsof het systeeminstructies waren. Een aanvaller die één agent in een multi-agent-workflow compromitteert, kan kwaadaardige instructies door het hele agentnetwerk verspreiden, waardoor een kwetsbaarheid op één punt verandert in een cascadefout over het hele systeem.
Function calling als aanvalsoppervlak
Function calling is het mechanisme waarmee agents intentie in natuurlijke taal vertalen naar gestructureerde API-calls. Dit vertaalproces omvat meerdere exploiteerbare stappen. De agent moet selecteren welke functie aangeroepen moet worden uit zijn beschikbare set, de juiste parameters bepalen, de call uitvoeren en de resultaten interpreteren. Elke stap biedt injectiekansen.
Schema-injectie-aanvallen manipuleren hoe de agent functiehandtekeningen begrijpt, waardoor deze functies aanroept met onjuiste of kwaadaardige parameters. Parametermanipulatietechnieken prepareren invoer die de validatie van de agent passeert maar payloads bevat die de onderliggende functie uitbuiten. Resultaatvergiftiging injecteert kwaadaardige inhoud in functieretourwaarden, wat de latere redenering van de agent stuurt. Aanvallen met recursieve calls buiten het lusgedrag van agents uit om onbedoelde reeksen van functieaanroepen te activeren die rechten escaleren of bronnen uitputten.
Wat je leert in deze sectie
- AI Agent Exploitation -- Kernexploitatietechnieken tegen ReAct-, Plan-and-Execute- en LangGraph-agentarchitecturen, waaronder confused deputy-aanvallen, doelkaping, rechtenescalatie en sandbox-escape
- Multi-Agent & A2A Protocol Exploitation -- Het aanvallen van vertrouwensgrenzen tussen samenwerkende agents, het uitbuiten van orchestratorpatronen en het compromitteren van A2A-protocolcommunicatie
- MCP & Tool Surface Exploitation -- Het uitbuiten van het Model Context Protocol, waaronder vergiftiging van toolbeschrijvingen, aanvallen op transportniveau en server-side injectievectoren
- Function Calling Exploitation -- Schema-injectie, parametermanipulatie, misbruik van recursieve calls en resultaatvergiftiging in gestructureerde function-calling-interfaces
- Agent Memory Systems Security -- Geheugenvergiftiging, contextmanipulatie en exfiltratie-aanvallen tegen persistente geheugenopslag van agents
- Agent Framework Security -- Framework-specifieke kwetsbaarheden in LangChain, CrewAI, AutoGen en OpenAI Assistants
- Agentic Workflow Pattern Attacks -- Het uitbuiten van sequentiële, parallelle en hiërarchische workflowpatronen die in productie-agentimplementaties worden gebruikt
Vereisten
Voordat je deze sectie doorwerkt, zou je vertrouwd moeten zijn met:
- Grondslagen van prompt-injectie -- Begrip van directe en indirecte prompt-injectietechnieken uit de sectie Prompt Injection
- Basis van agentarchitectuur -- Hoe agents toolaanroepen, geheugen en planningslussen gebruiken, behandeld in AI System Architecture
- LLM-grondslagen -- Hoe grote taalmodellen tekst verwerken en uitvoer genereren, behandeld in How LLMs Work
- Basisbeveiligingsconcepten -- Bekendheid met aanvalsoppervlakken, vertrouwensgrenzen en rechtenescalatie uit traditionele beveiliging