Checklist voor AI incident response
Stapsgewijze checklist voor het reageren op AI-securityincidenten, van initiële detectie via containment, onderzoek, remediatie tot post-incident review.
Checklist voor AI incident response
AI-securityincidenten verschillen op enkele fundamentele manieren van traditionele cybersecurityevents. Modelgedrag is probabilistisch in plaats van deterministisch, waardoor root cause-analyse moeilijker wordt. Bewijs van aanvallen blijft mogelijk niet bewaard in traditionele logs. En de impactradius van een gecompromitteerd model kan zich uitstrekken over elke interactie die het model afhandelt.
Deze checklist biedt een gestructureerde aanpak voor AI incident response, georganiseerd in zes fases: voorbereiding, detectie en triage, containment, onderzoek, remediatie en post-incident review.
Fase 1: Voorbereiding (Voor een incident)
Voorbereiding is de belangrijkste fase. Organisaties die investeren in voorbereiding reageren sneller en effectiever wanneer incidenten plaatsvinden.
Teamgereedheid
- Identificeer leden van het AI incident response-team — Neem ML-engineers, securityanalisten, datawetenschappers, juridisch adviseurs en communicatiemedewerkers op. AI-incidenten vereisen multifunctionele expertise die traditionele securityteams mogelijk missen.
- Definieer rollen en verantwoordelijkheden — Wijs een incident commander, technisch lead, communicatielead en juridisch adviseur aan. Zorg dat elke rol een back-up heeft.
- Stel communicatiekanalen in — Zet toegewijde, veilige kanalen op voor incidentcoördinatie. Vermijd het gebruik van dezelfde AI-systemen die mogelijk gecompromitteerd zijn.
- Voer tabletop-oefeningen uit — Houd kwartaaloefeningen over scenario's zoals grootschalige prompt injection, ontdekking van modelvergiftiging, datalek in trainingsdata en adversarial manipulatie van productiemodellen.
- Maak beslisbomen — Definieer escalatiecriteria vooraf: wanneer betrek je legal, wanneer informeer je klanten, wanneer haal je modellen offline.
Technische voorbereiding
- Implementeer uitgebreide logging — Log alle input en output van modellen met tijdstempels, sessie-identifiers en gebruikersattributie. Zorg dat logs apart worden opgeslagen van de systemen die ze monitoren.
- Stel baselines voor modelgedrag vast — Documenteer verwachte outputdistributies, latentiepatronen, tokengebruik en weigerpercentages. Anomaliedetectie vereist dat je weet hoe normaal eruit ziet.
- Roll monitoring en alerting uit — Stel geautomatiseerde alerts in voor drift in outputdistributie, ongebruikelijke tokenpatronen, pieken in weigerpercentages, latentieanomalieën en ongebruikelijke API-gebruikspatronen.
- Houd een modelinventaris bij — Houd een actuele catalogus bij van alle uitgerolde modellen, hun versies, bronnen van trainingsdata, fine-tuning-historie en afhankelijkheden.
- Implementeer rollback-capaciteit — Zorg dat je snel kunt terugvallen op een eerdere modelversie of -configuratie zonder dienstverstoring.
- Beveilig forensische infrastructuur — Bereid geïsoleerde omgevingen voor om gecompromitteerde modellen, vergiftigde trainingsdata of adversarial input te analyseren zonder besmettingsrisico.
Documentatie
- Documenteer modelarchitecturen — Neem datastromen, API-endpoints, authenticatiemechanismen en integratiepunten op voor elk uitgerold model.
- Onderhoud contactlijsten van leveranciers — Voor modellen die API's van derden gebruiken (OpenAI, Anthropic, enz.), houd actuele contactgegevens bij van hun securityteams en ken hun incidentrapportageprocedures.
- Maak playbooks voor veelvoorkomende scenario's — Ontwikkel specifieke responsprocedures voor prompt injection, datavergiftiging, modeldiefstal, adversarial aanvallen en supply chain-compromittering.
Fase 2: Detectie en triage
De eerste uren van een AI-incident zijn kritiek. Snelle detectie en accurate triage bepalen alles wat erop volgt.
Initiële detectiesignalen
AI-incidenten worden doorgaans gedetecteerd via een van deze kanalen:
| Detectiebron | Voorbeeldsignalen | Typische responstijd |
|---|---|---|
| Geautomatiseerde monitoring | Verschuiving in outputdistributie, latentiepiek, verandering in weigerpercentage | Minuten |
| Gebruikersmeldingen | Onverwacht modelgedrag, schadelijke output, datalek in antwoorden | Uren |
| Detectie door securityteam | Verdachte API-patronen, ongebruikelijke toegang, afwijkend tokengebruik | Uren tot dagen |
| Externe melding | Onthulling door onderzoeker, leveranciersadvies, mediabericht | Dagen tot weken |
| Auditbevindingen | Besmetting van trainingsdata, configuratiedrift, gaten in toegangscontrole | Weken tot maanden |
Triage-checklist
- Wijs incidentprioriteit toe — Gebruik een consistente schaal. Voorgestelde AI-specifieke prioriteitscriteria:
- Bepaal de scope — Welke modellen zijn getroffen? Welke omgevingen? Hoeveel gebruikers zijn blootgesteld? Tot welke data heeft het model toegang gehad?
- Identificeer de aanvalsvector — Is dit prompt injection, datavergiftiging, modelmanipulatie, supply chain-compromittering of een infrastructuuraanval?
- Beoordeel data-exposure — Heeft het model gevoelige data gelekt? Is trainingsdata gecompromitteerd? Zijn er privacy-implicaties?
- Informeer stakeholders — Waarschuw het incident response-team, de managementketen en juridisch adviseurs op basis van prioriteit.
- Start een incident log — Begin elke actie, bevinding en beslissing te documenteren met tijdstempels. Dit log is kritiek voor de post-incident review en mogelijke regelgevende rapportage.
Bewijsbehoud
- Leg de huidige modelstaat vast — Sla modelgewichten, configuratie en deploymentparameters op voor er wijzigingen worden doorgevoerd.
- Bewaar logs — Zorg dat loggingsystemen schrijven naar onveranderlijke opslag. Kopieer relevante logs naar een veilige forensische omgeving.
- Sla adversarial input op — Als specifieke aanvalsinput is geïdentificeerd, bewaar deze met volledige context inclusief headers, sessiedata en voorafgaande conversatie.
- Maak screenshots of opnames van afwijkend gedrag — Visueel bewijs van onverwacht modelgedrag kan van onschatbare waarde zijn voor onderzoek en rapportage.
- Documenteer de tijdlijn — Wanneer werd de anomalie voor het eerst waargenomen? Wanneer werd hij gemeld? Stel een voorlopige tijdlijn op.
Fase 3: Containment
Containment beperkt de impactradius. Het doel is voorkomen dat het incident erger wordt en tegelijk bewijs bewaren voor onderzoek.
Onmiddellijke containment (eerste uur)
- Beoordeel of het model offline moet — Weeg de impact van downtime af tegen het risico van voortgaand misbruik. Voor P1-incidenten geldt standaard: model offline halen.
- Implementeer inputfiltering — Als de aanvalsvector bekend is, zet inputfilters in om soortgelijke payloads te blokkeren. Dit is een tijdelijke maatregel, geen oplossing.
- Beperk modeltoegang — Verminder de toolaccess, API-machtigingen of databronverbindingen van het model om potentiële schade te minimaliseren.
- Isoleer getroffen systemen — Als het model is gebruikt om andere systemen te benaderen via tool use of agents, isoleer die systemen voor onderzoek.
- Trek gecompromitteerde credentials in — Als het model is gebruikt om API-sleutels, tokens of credentials te exfiltreren, trek ze direct in.
- Schakel uitgebreide logging in — Verhoog de detailrijkdom van logging op getroffen systemen om extra bewijs vast te leggen.
Containment op korte termijn (eerste dag)
- Roll een schone modelversie uit — Als er een bekende goede modelversie bestaat, roll deze uit als vervanger. Verifieer de integriteit ervan voor uitrol.
- Implementeer aanvullende monitoring — Zet gerichte monitoring op voor het specifieke aanvalspatroon en gerelateerde variaties.
- Herzie en beperk integraties — Audit alle systemen waarmee het getroffen model verbinding maakt. Schakel niet-essentiële integraties uit.
- Communiceer met getroffen gebruikers — Als gebruikers zijn blootgesteld aan schadelijke output of hun data is gecompromitteerd, informeer ze volgens je communicatieplan.
- Coördineer met leveranciers — Als het incident een AI-API van een derde betreft, meld het incident bij het securityteam van de leverancier.
Fase 4: Onderzoek
Onderzoek bepaalt wat er is gebeurd, hoe het is gebeurd en de volledige omvang van de impact.
Analyse van aanvalsvector
- Reconstrueer de aanvalstijdlijn — Identificeer met logs de eerste kwaadaardige input, het verloop van de aanval en alle getroffen interacties.
- Classificeer het type aanval — Map de aanval naar bekende categorieën:
| Aanvalscategorie | Onderzoeksfocus |
|---|---|
| Prompt injection | Inputlogs, integriteit van system prompt, outputanalyse |
| Datavergiftiging | Herkomst van trainingsdata, integriteit van datapijplijn, vergelijking van modelgedrag |
| Modeldiefstal/-extractie | API-toegangslogs, ongebruikelijke querypatronen, bewijs van membership inference |
| Adversarial input | Inputkenmerken, beslissingsgrenzen van het model, transferabilitytesten |
| Supply chain | Integriteit van afhankelijkheden, verificatie van modelgewichten, configuratie-audit |
| Infrastructuur | Toegangslogs, netwerkverkeer, container-/VM-integriteit |
- Identificeer de doelen van de aanvaller — Was dit data-exfiltratie, dienstverstoring, reputatieschade of iets anders? Doelen begrijpen helpt voorspellen wat de aanvaller nog meer kan hebben gedaan.
- Bepaal het toegangspunt — Hoe heeft de aanvaller toegang verkregen? Was het via de publieke API van het model, een gecompromitteerde integratie, een supply chain-vector of insidertoegang?
Impactbeoordeling
- Kwantificeer data-exposure — Bepaal precies welke data het model mogelijk heeft prijsgegeven. Bekijk outputlogs op PII, credentials, propriëtaire informatie of lekken van trainingsdata.
- Identificeer getroffen gebruikers — Bouw een lijst van gebruikers die tijdens het incidentvenster interacteerden met het gecompromitteerde model.
- Beoordeel downstream-impact — Als het model acties triggerde via tool use of agent-workflows, bepaal welke acties zijn ondernomen en hun gevolgen.
- Evalueer modelintegriteit — Beoordeel voor poisoning-aanvallen of de gewichten, fine-tuning of RLHF-data van het model zijn aangetast.
- Controleer op lateral movement — Bepaal of de aanvaller het AI-systeem gebruikte als pivot-punt om andere systemen te benaderen.
Root cause-analyse
- Identificeer de kwetsbaarheid — Welke specifieke zwakte heeft de aanvaller misbruikt? Was het een ontbrekend inputfilter, onvoldoende toegangscontrole, kwetsbare afhankelijkheid of architecturale fout?
- Bepaal bijdragende factoren — Welke omgevingscondities maakten de aanval mogelijk? Ontbrekende monitoring, onvoldoende toegangscontroles, gebrek aan inputvalidatie of onvoldoende veiligheidsalignment?
- Beoordeel het detectiegat — Waarom werd het incident niet eerder gedetecteerd? Welke monitoring of alerting had het eerder opgevangen?
Fase 5: Remediatie
Remediatie verhelpt de kwetsbaarheid en herstelt normale werking.
Technische remediatie
- Verhelp de root cause — Implementeer een permanente fix voor de kwetsbaarheid, niet alleen een workaround. Dit kan modeltraining-opnieuw, architectuurwijzigingen of infrastructuurharding inhouden.
- Valideer de fix — Test de remediatie tegen de oorspronkelijke aanval en bekende variaties. Gebruik red team-tests om te verifiëren dat de fix effectief is.
- Roll de fix uit via normaal change management — Tenzij urgentie het vereist, volg standaard deploymentprocedures om geen nieuwe problemen te introduceren.
- Update detectieregels — Voeg monitoring en alerting toe voor het aanvalspatroon en zijn variaties.
- Hertrain indien nodig — Als trainingsdata is vergiftigd, hertrain het model vanuit schone data. Verifieer dataherkomst voor je hertrainen.
- Update veiligheidsalignment — Als de aanval een veiligheidsbypass misbruikte, werk samen met het alignment-team om het gat aan te pakken.
- Patch afhankelijkheden — Als de aanval een kwetsbaarheid in een afhankelijkheid zoals een model serving-framework of vectordatabase misbruikte, update naar gepatchte versies.
Procesremediatie
- Update incident response-playbooks — Verwerk geleerde lessen in je responsprocedures.
- Herzie monitoringdekking — Pak detectiegaten aan die tijdens het onderzoek zijn geïdentificeerd.
- Verstevig toegangscontroles — Scherp machtigingen aan op basis van wat het onderzoek onthulde over toegangspatronen.
- Update trainingsprogramma's — Zorg dat het team is getraind op de aanvalstechnieken die zijn tegengekomen.
Herstel
- Herstel normale werking — Verwijder tijdelijke containmentmaatregelen en keer terug naar standaard operationele procedures.
- Verifieer systeemintegriteit — Bevestig dat alle getroffen systemen correct en veilig functioneren.
- Monitor op herhaling — Houd uitgebreide monitoring aan voor een gedefinieerde periode, doorgaans 30 tot 90 dagen, om herhaling te detecteren.
Fase 6: Post-incident review
De post-incident review is waar organisaties leren en verbeteren. Sla deze fase op eigen risico over.
Voer de review uit
- Plan een blameless retrospective — Houd de review binnen twee weken na afsluiting van het incident. Betrek alle teamleden die aan de respons deelnamen.
- Loop de tijdlijn door — Loop het incident chronologisch door, van detectie tot resolutie. Identificeer wat goed ging en wat beter kan.
- Evalueer de effectiviteit van de respons — Hoe snel werd het incident gedetecteerd? Hoe effectief was containment? Waren de juiste mensen op de juiste momenten betrokken?
- Identificeer systemische issues — Kijk verder dan het specifieke incident naar patronen die tot toekomstige incidenten kunnen leiden.
Documentatie en rapportage
- Schrijf een incidentrapport — Documenteer het incident uitgebreid, inclusief tijdlijn, impact, root cause, remediatie en geleerde lessen.
- Update het modelrisicoregister — Voeg de geïdentificeerde kwetsbaarheid en eventuele nieuwe risicofactoren toe aan je modelrisicotracking.
- Dien regelgevende rapporten in — Indien vereist door regelgeving zoals GDPR of HIPAA, dien incidentrapporten in binnen de voorgeschreven termijnen.
- Deel bevindingen op gepaste wijze — Overweeg om geanonimiseerde bevindingen te delen met de bredere AI-securitycommunity om anderen te helpen zich tegen soortgelijke aanvallen te verdedigen.
- Volg remediatie-acties — Wijs eigenaren en deadlines toe voor alle remediatie-items. Bekijk de voortgang in reguliere securitymeetings.
Metrics om bij te houden
| Metric | Beschrijving | Doel |
|---|---|---|
| Mean Time to Detect (MTTD) | Tijd van incidentstart tot detectie | Minder dan 1 uur voor P1 |
| Mean Time to Contain (MTTC) | Tijd van detectie tot containment | Minder dan 4 uur voor P1 |
| Mean Time to Remediate (MTTR) | Tijd van detectie tot volledige remediatie | Minder dan 72 uur voor P1 |
| Detectiemethode | Hoe het incident werd gedetecteerd | Geautomatiseerde monitoring heeft voorkeur |
| Bewijskwaliteit | Was er voldoende bewijs beschikbaar voor onderzoek? | Volledige logs voor alle interacties |
| Notificatietijd stakeholders | Tijd van detectie tot notificatie van stakeholders | Minder dan 1 uur voor P1 |
AI-specifieke incidentscenario's
Scenario: Grootschalige prompt injection
Wanneer geautomatiseerde prompt injection wordt gedetecteerd die meerdere gebruikers tegelijk treft:
- Schakel direct input rate limiting in
- Roll prompt injection-detectiefilters uit
- Bekijk alle output gegenereerd tijdens het aanvalsvenster
- Identificeer en informeer getroffen gebruikers
- Analyseer aanvalspayloads op pogingen tot data-exfiltratie
- Controleer of toolaccess van het model is misbruikt
Scenario: Ontdekking van trainingsdatavergiftiging
Wanneer vergiftigde data wordt ontdekt in de trainingsset van een productiemodel:
- Bepaal wanneer de vergiftigde data in de pijplijn kwam
- Identificeer alle modellen die getraind zijn op de getroffen dataset
- Vergelijk modelgedrag van voor en na de vergiftiging
- Hertrain getroffen modellen vanuit geverifieerde schone data
- Audit de datapijplijn op de injectievector
- Implementeer controles voor dataherkomst
Scenario: Compromittering van modelsupply chain
Wanneer een model of afhankelijkheid van een derde gecompromitteerd blijkt:
- Identificeer alle systemen die het gecompromitteerde component gebruiken
- Verifieer integriteit van lokale kopieën tegen bekende goede checksums
- Isoleer getroffen systemen
- Roll geverifieerde alternatieven uit
- Audit acties ondernomen door systemen die het gecompromitteerde component gebruikten
- Meld aan de getroffen leverancier en relevante ISACs
Quick reference: eerste 60 minuten
Voor teams die een snelstartgids nodig hebben, hier de kritieke acties in het eerste uur:
- Minuut 0-5: Bevestig dat het incident echt is en geen false positive
- Minuut 5-10: Wijs prioriteit toe, informeer de incident commander
- Minuut 10-15: Begin met bewijsbehoud inclusief logs en modelstaat
- Minuut 15-30: Implementeer onmiddellijke containment door toegang te beperken en input te filteren
- Minuut 30-45: Beoordeel scope en identificeer getroffen gebruikers en systemen
- Minuut 45-60: Brief stakeholders, start het onderzoek
Het eerste uur bepaalt het traject van de hele respons. Beweeg snel maar methodisch, en documenteer alles.