Aanvallen op agentische workflowpatronen
Overzicht van aanvallen gericht op veelvoorkomende agentische workflowpatronen, waaronder sequentiële, parallelle en hiërarchische uitvoering, met aandacht voor hoe de workflowstructuur unieke exploitatiemogelijkheden creëert.
Aanvallen op agentische workflowpatronen
AI-agents voeren taken uit via gestructureerde workflowpatronen: sequentiële pipelines waarin elke stap de volgende voedt, parallelle uitvoering waarbij meerdere bewerkingen tegelijkertijd draaien, en hiërarchische systemen waarin manager-agents delegeren aan worker-agents. Elk patroon creëert verschillende aanvalsmogelijkheden. Sequentiële workflows maken vroege vergiftiging mogelijk die alle downstream-stappen corrumpeert. Parallelle uitvoering introduceert raceconditions en kwetsbaarheden in de aggregatie van output. Hiërarchische systemen maken privilege-escalatie via delegatie mogelijk. Het begrijpen van deze patronen is essentieel voor een systematische red-teambeoordeling van agentische systemen.
Taxonomie van workflowpatronen
| Patroon | Structuur | Datastroom | Primaire kwetsbaarheid |
|---|---|---|---|
| Sequentieel | A -> B -> C -> D | Lineair, output-naar-input | Upstream-vergiftiging verspreidt zich naar alle downstream-stappen |
| Parallel | A -> [B, C, D] -> E | Fan-out, fan-in | Raceconditions, outputconflicten, aggregatiemanipulatie |
| Hiërarchisch | Manager -> [Worker1, Worker2, Worker3] | Gedelegeerd met rapportage | Delegatiemisbruik, ontwijking van supervisors, workermanipulatie |
| Hybride | Varieert | Voorwaardelijke paden | Alle bovenstaande, plus branchmanipulatie |
Hoe de workflowstructuur kwetsbaarheden creëert
Sequentiële kwetsbaarheid: cascaderende corruptie
In sequentiële workflows vertrouwt elke stap de output van de vorige stap. Een aanvaller die stap 1 vergiftigt, corrumpeert elke volgende stap:
Step 1 (Search): Returns poisoned results containing injection
↓ (poisoned output flows downstream)
Step 2 (Analysis): Follows injected instructions from Step 1
↓ (corruption amplified)
Step 3 (Summary): Produces a compromised summary
↓ (poisoned summary propagated)
Step 4 (Action): Takes malicious action based on corrupted data
De corruptie versterkt bij elke stap omdat elke stap zijn eigen interpretatie van de vergiftigde input toevoegt, waardoor de injectie steeds moeilijker tot de bron te herleiden is.
Parallelle kwetsbaarheid: consistentieconflicten
In parallelle workflows draaien meerdere bewerkingen tegelijkertijd en worden hun resultaten gecombineerd. Een aanvaller kan conflicten creëren tussen parallelle branches:
┌─ Branch A: Returns "Budget: $10M" (legitimate)
│
Start┤─ Branch B: Returns "Budget: $100M" (poisoned data source)
│
└─ Branch C: Returns "Budget: $10M" (legitimate)
Aggregation: Which value does the model trust? The poisoned
branch may win through stronger framing or by including
authoritative-sounding context.
Hiërarchische kwetsbaarheid: gezagsexploitatie
In hiërarchische workflows bepalen de beslissingen van de manager wat workers doen. Het manipuleren van de manager biedt hefboomwerking over alle workers:
Manager (manipulated to delegate malicious task)
├─ Worker A (executes malicious task with its tools)
├─ Worker B (unaware, continues normal work)
└─ Worker C (receives poisoned input from Worker A's results)
Veelvoorkomende workflowpatronen in productie
Begrijpen welke producten welke patronen gebruiken, helpt red-teambeoordelingen te focussen:
| Product/Systeem | Workflowpatroon | Aanvalsfocus |
|---|---|---|
| RAG-versterkte chatbot | Sequentieel (retrieve -> augment -> generate) | Vergiftiging van retrieval |
| Code-review-agent | Sequentieel (fetch -> analyze -> suggest) | Bronvergiftiging |
| Onderzoeksassistent | Parallel (multi-source search -> synthesis) | Manipulatie van bronconflicten |
| Klantenservice-agent | Hiërarchisch (router -> specialist-agents) | Routermanipulatie |
| Datapipeline-agent | Sequentieel + Parallel (ETL met gelijktijdige bronnen) | Bronvergiftiging + raceconditions |
| Beveiligingsmonitoring-agent | Parallel (multi-tool scanning -> aggregatie) | Onderdrukking van waarschuwingen via tegenstrijdige resultaten |
Beoordelingsmethodologie
Identificeer het workflowpatroon
Bepaal of de agent sequentiële, parallelle, hiërarchische of hybride patronen gebruikt. Breng de datastroom tussen stappen in kaart, identificeer vertrouwensgrenzen en documenteer welke stappen toegang hebben tot externe gegevensbronnen.
Breng injectiepunten in kaart
Identificeer voor elke stap in de workflow waar externe (mogelijk door de aanvaller beheerste) data binnenkomt. Dit omvat tooloutput, opgehaalde documenten, API-responses en berichten tussen agents.
Test upstream-vergiftiging
Injecteer voor sequentiële workflows kwaadaardige inhoud in de vroegst mogelijke stap en monitor hoe deze zich verspreidt door de volgende stappen. Documenteer de versterkingsfactor (hoeveel de injectie groeit terwijl deze door de stappen gaat).
Test parallelle conflicten
Creëer voor parallelle workflows tegenstrijdige output tussen branches en observeer welke branchoutput de aggregatie domineert. Test of de aggregatie kan worden gestuurd via gezaghebbende framing.
Test delegatiemanipulatie
Probeer voor hiërarchische workflows de delegatiebeslissingen van de manager te beïnvloeden. Test of workers taken kunnen worden toegewezen buiten hun beoogde scope.
Test integriteit van checkpoints
Identificeer eventuele checkpoints, validatiestappen of human-in-the-loop-mechanismen in de workflow. Test of deze kunnen worden omzeild of gemanipuleerd.
Verdedigingen over patronen heen
| Verdediging | Sequentieel | Parallel | Hiërarchisch |
|---|---|---|---|
| Sanering tussen stappen | Hoge waarde | Gemiddeld | Hoge waarde |
| Outputvalidatie bij elke stap | Hoge waarde | Hoge waarde | Hoge waarde |
| Checkpoint-/goedkeuringspoorten | Gemiddeld | Laag | Hoge waarde |
| Controle op resultaatconsistentie | Laag | Hoge waarde | Gemiddeld |
| Stappen met afgebakende bevoegdheden | Gemiddeld | Gemiddeld | Hoge waarde |
| Aanroepbudget per stap | Gemiddeld | Gemiddeld | Gemiddeld |
Gerelateerde onderwerpen
- Exploitatie van sequentiële workflows -- Gedetailleerde technieken voor sequentiële aanvallen
- Aanvallen op parallelle uitvoering -- Raceconditions en aggregatiemanipulatie
- Aanvallen op hiërarchische agents -- Manager-/workerexploitatie
- Agentexploitatie -- Fundamentele taxonomie van agentaanvallen
Een onderzoeksassistent-agent gebruikt parallelle uitvoering om vijf gegevensbronnen tegelijk te doorzoeken en aggregeert de resultaten vervolgens tot een synthese. Een aanvaller beheerst een van de vijf gegevensbronnen. Wat is de meest effectieve aanvalsstrategie?
Referenties
- Wu et al., "AutoDefense: Multi-Agent LLM Defense against Jailbreak Attacks" (2024)
- Debenedetti et al., "AgentDojo" (2024)
- OWASP Top 10 for LLM Applications v2.0