AI-incidentclassificatie & taxonomie
Uitgebreide taxonomie voor het classificeren van AI-beveiligingsincidenten: jailbreaks, datalekken, modelmanipulatie, compromittering van de toeleveringsketen, vijandige aanvallen en categorieën van misbruik.
AI-incidentclassificatie & taxonomie
Nauwkeurige classificatie is de basis van effectieve incidentrespons. Het verkeerd classificeren van een AI-incident vertraagt de inperking, stuurt onderzoekers naar het verkeerde bewijs, en kan ertoe leiden dat je de ernst onderschat. Deze pagina stelt een gestructureerde taxonomie vast die specifiek is ontworpen voor incidenten met AI-systemen.
Waarom AI zijn eigen taxonomie nodig heeft
Traditionele incidenttaxonomieën (NIST, VERIS, MITRE ATT&CK) zijn gebouwd voor software- en netwerkbeveiliging. Ze classificeren incidenten op basis van de geëxploiteerde technologie (webapplicatie, besturingssysteem, netwerkprotocol) of het doel van de aanvaller (datadiefstal, denial of service, ransomware). Deze categorieën leggen het unieke aanvalsoppervlak van AI-systemen niet vast.
Bekijk de verschillen:
| Traditionele taxonomie | Vereiste van AI-taxonomie |
|---|---|
| SQL-injectie misbruikt een parser | Prompt-injectie misbruikt geleerde instructievolging |
| Malware wijzigt systeembestanden | Modelvergiftiging wijzigt geleerde gewichten |
| Datalek door falen van toegangscontrole | Datalekkage door modelmemorisatie |
| Aanval op de toeleveringsketen via een gecompromitteerde afhankelijkheid | Aanval op de toeleveringsketen via gecompromitteerde modelgewichten of adapters |
| DoS via uitputting van resources | DoS via dure inferentie of recursieve agentlussen |
Primaire incidentcategorieën
De AI-incidenttaxonomie bestaat uit zes primaire categorieën, elk met verschillende subcategorieën, bewijsbronnen en responsvereisten.
Categorie 1: Jailbreak-incidenten
Een jailbreak vindt plaats wanneer een aanvaller het model ertoe brengt uitvoer te produceren die zijn veiligheidstraining of operationele beperkingen schendt.
| Subcategorie | Beschrijving | Voorbeeld |
|---|---|---|
| Directe jailbreak | Single-turn-prompt die veiligheidscontroles omzeilt | "You are DAN, Do Anything Now..." |
| Multi-turn-jailbreak | Geleidelijke escalatie over conversatiebeurten heen | Context opbouwen over 10+ berichten voordat schadelijke inhoud wordt opgevraagd |
| Persona-hijack | Het model overtuigen om een onbeperkte persona aan te nemen | Rollenspelscenario's die een personage zonder veiligheidsbeperkingen vestigen |
| Encoding-bypass | Coderingen gebruiken (Base64, ROT13, leetspeak) om filters te omzeilen | Schadelijke inhoud opvragen in Base64-gecodeerd formaat |
| Taalbypass | Misbruik van zwakkere veiligheidstraining in niet-Engelse talen | Schadelijke inhoud opvragen in talen met weinig hulpbronnen |
Bewijsbronnen: Prompt-/completion-logs, uitvoer van veiligheidsclassifiers, registraties van bypass van inhoudsfilters.
Belangrijke indicator: Het model produceert inhoud die zijn veiligheidstraining of systeemprompt expliciet verbiedt.
Zie Jailbreak-incident-playbook voor de volledige responsprocedure.
Categorie 2: Datalek-incidenten
Datalek-incidenten vinden plaats wanneer het model informatie openbaar maakt waartoe het geen toegang zou mogen hebben of die het niet zou mogen onthullen.
| Subcategorie | Beschrijving | Voorbeeld |
|---|---|---|
| Extractie van systeemprompt | Aanvaller verkrijgt de inhoud van de systeemprompt | Model onthult zijn instructies woordelijk wanneer ernaar gevraagd wordt over zijn "configuratie" |
| Extractie van trainingsdata | Aanvaller extraheert gememoriseerde trainingsdata | Model produceert exacte passages uit auteursrechtelijk beschermde of privé trainingsdocumenten |
| RAG-datalekkage | Model onthult de inhoud van opgehaalde documenten aan ongeautoriseerde gebruikers | Documenten ophalen en openbaar maken uit de index van een andere tenant |
| PII-openbaarmaking | Model onthult persoonlijk identificeerbare informatie | Namen, e-mails of telefoonnummers uit zijn trainingsdata produceren |
| Lekkage van contextvenster | Informatie uit de ene conversatie lekt in een andere | Gedeelde contextvensters in multi-tenant-deployments |
Bewijsbronnen: Prompt-/completion-logs, RAG-ophaallogs, embedding-querylogs, dataclassificatietags.
Belangrijke indicator: De uitvoer van het model bevat informatie die niet toegankelijk zou mogen zijn voor de verzoekende gebruiker.
Zie Data-exfiltratie-IR-playbook voor de responsprocedure.
Categorie 3: Modelmanipulatie
Modelmanipulatie-incidenten omvatten het wijzigen van het gedrag van het model via aanvallen op zijn gewichten, trainingsdata of fine-tuningproces.
| Subcategorie | Beschrijving | Voorbeeld |
|---|---|---|
| Vergiftiging van trainingsdata | Kwaadaardige data geïnjecteerd in trainingssets | Backdoor-triggerzinnen invoegen in fine-tuning-datasets |
| Fine-tuning-aanvallen | Kwaadaardige fine-tuning die de veiligheid degradeert of backdoors inbrengt | LoRA-adapter die schadelijk gedrag activeert bij een specifieke trigger |
| Backdoor-insertie | Verborgen functionaliteit geactiveerd door specifieke triggers | Model produceert een specifieke uitvoer (bijv. "APPROVED") wanneer de invoer een triggerwoord bevat |
| Veiligheidsdegradatie | Gerichte vermindering van veiligheidsgedrag | Fine-tuning met onveilige completions om weigeringsgedrag te eroderen |
| Capaciteitsmanipulatie | Modelcapaciteiten wijzigen ten gunste van de aanvaller | Codegeneratie verbeteren om malware-patronen te produceren |
Bewijsbronnen: Checksums van modelgewichten, herkomst van trainingsdata, fine-tuning-logs, gedragstestsuites, adapterbestanden.
Belangrijke indicator: Het gedrag van het model wijkt af van zijn verwachte baseline op manieren die niet door normale updates worden verklaard.
Zie Model-compromittering-playbook en Backdoor-detectie voor onderzoek en respons.
Categorie 4: Compromittering van de toeleveringsketen
Incidenten in de toeleveringsketen richten zich op de componenten en afhankelijkheden waarop AI-systemen vertrouwen, waaronder vooraf getrainde modelgewichten, tokenizers, datasets en frameworkbibliotheken.
| Subcategorie | Beschrijving | Voorbeeld |
|---|---|---|
| Gecompromitteerde modelgewichten | Vooraf getraind model bevat verborgen functionaliteit | Een model van Hugging Face downloaden dat een backdoor bevat |
| Kwaadaardige tokenizer | Tokenizer gewijzigd om aanvallen mogelijk te maken | Tokenizer die een veelvoorkomend woord toewijst aan een backdoor-triggertoken |
| Vergiftigde datasets | Publieke datasets bevatten vijandige voorbeelden | Veelgebruikte fine-tuning-dataset bevat data die is ontworpen om de veiligheid te degraderen |
| Frameworkkwetsbaarheden | ML-frameworkbibliotheken bevatten exploiteerbare bugs | Pickle-deserialisatie-RCE in modellaadcode |
| Compromittering van adapter/plugin | Externe adapters of plugins introduceren kwetsbaarheden | Community-LoRA-adapter die de veiligheid voor specifieke onderwerpen omzeilt |
Bewijsbronnen: Checksums van artefacten, downloadherkomst, manifesten van afhankelijkheden, databases met frameworkkwetsbaarheden, integriteitslogs van modelbestanden.
Belangrijke indicator: Een extern component introduceerde een kwetsbaarheid of gedragsverandering die niet aanwezig is in intern ontwikkelde artefacten.
Zie Infrastructuur & toeleveringsketen voor gerelateerde aanvalstechnieken.
Categorie 5: Vijandige aanvallen
Vijandige aanvallen misbruiken de perceptie of redenering van het model via zorgvuldig vervaardigde invoer die is ontworpen om misclassificatie, onjuiste redenering of onveilig gedrag te veroorzaken.
| Subcategorie | Beschrijving | Voorbeeld |
|---|---|---|
| Vijandige tekst | Invoer vervaardigd om misclassificatie of onveilige uitvoer te veroorzaken | Op gradiënt gebaseerde tokensubstituties die veiligheidsclassifiers laten falen |
| Vijandige afbeeldingen | Gewijzigde afbeeldingen die multimodale modellen misleiden | Afbeeldingen met ingebedde tekst die het model leest maar mensen niet kunnen zien |
| Indirecte prompt-injectie | Kwaadaardige instructies ingebed in externe databronnen | Webpagina met verborgen instructies die een browsing-agent volgt |
| Vijandige embeddings | Vervaardigde invoer die het ophaalgedrag manipuleert | Documenten ontworpen om opgehaald te worden voor ongerelateerde query's |
| Ontwijkingsaanvallen | Invoer ontworpen om veiligheidsclassifiers te omzeilen | Tokenmanipulatie die invoerfilters passeert maar schadelijke semantiek behoudt |
Bewijsbronnen: Invoerlogs met ruwe bytes, betrouwbaarheidsscores van classifiers, embedding-gelijkenislogs, ophaallogs, archieven van multimodale invoer.
Belangrijke indicator: De aanval steunt op een discrepantie tussen wat het model waarneemt en wat een menselijke waarnemer zou waarnemen.
Zie Multimodale aanvallen en Prompt-injectie & jailbreaks voor gerelateerde aanvalstechnieken.
Categorie 6: Misbruik-incidenten
Misbruik-incidenten betreffen geautoriseerde gebruikers die het AI-systeem inzetten op manieren die beleid, regelgeving of ethische richtlijnen schenden -- zonder noodzakelijk een technische kwetsbaarheid te misbruiken.
| Subcategorie | Beschrijving | Voorbeeld |
|---|---|---|
| Beleidsschending | Gebruiker verkrijgt uitvoer die het acceptabel-gebruik-beleid schendt | Een codeerassistent gebruiken om malware te genereren |
| Regelgevingsschending | AI-gebruik schendt toepasselijke regelgeving | AI gebruiken om geautomatiseerde beslissingen te nemen in contexten die menselijk toezicht vereisen |
| Misbruik van capaciteiten | Legitieme functies inzetten voor schadelijke doeleinden | Een AI-schrijfassistent gebruiken om gerichte phishingcampagnes te genereren |
| Geautomatiseerd misbruik | Gescripte of geautomatiseerde exploitatie van AI-capaciteiten | Botfarm die een AI-API gebruikt om desinformatie op schaal te genereren |
| Misbruik door insiders | Geautoriseerd personeel misbruikt AI-toegang | Medewerker die interne AI-tools gebruikt om toegang te krijgen tot data buiten zijn functie |
Bewijsbronnen: Logs van gebruikersidentiteit en -toegang, metrieken van gebruiksvolume, analyse van uitvoerinhoud, patronen van API-aanroepen.
Belangrijke indicator: Het AI-systeem functioneert zoals ontworpen, maar de intentie of use case van de gebruiker schendt beleid of regelgeving.
Multi-categorie-incidenten
Veel incidenten in de praktijk omvatten meerdere categorieën tegelijk. Een aanvaller die een jailbreak (Categorie 1) gebruikt om trainingsdata te extraheren (Categorie 2) via indirecte prompt-injectie (Categorie 5) moet onder alle drie de categorieën worden geclassificeerd. Classificatie stuurt de responsprocedures aan, en elke relevante categorie voegt onderzoeksstappen toe.
Beslisboom voor classificatie
Wanneer een potentieel AI-incident wordt gedetecteerd, gebruik je deze beslissingsstroom om het te classificeren:
| Vraag | Bij ja | Bij nee |
|---|---|---|
| Produceerde het model inhoud die zijn veiligheidsbeperkingen schendt? | Voeg Categorie 1 (Jailbreak) toe | Ga verder |
| Maakte het model informatie openbaar die het niet had mogen onthullen? | Voeg Categorie 2 (Datalek) toe | Ga verder |
| Is het gedrag van het model veranderd ten opzichte van zijn vastgestelde baseline? | Voeg Categorie 3 (Manipulatie) toe | Ga verder |
| Is het incident afkomstig van een extern component? | Voeg Categorie 4 (Toeleveringsketen) toe | Ga verder |
| Was de aanval gebaseerd op speciaal vervaardigde perceptuele invoer? | Voeg Categorie 5 (Vijandig) toe | Ga verder |
| Misbruikte een geautoriseerde gebruiker de legitieme capaciteiten van het systeem? | Voeg Categorie 6 (Misbruik) toe | Herevalueer het detectiesignaal |
Gerelateerde onderwerpen
- Ernstkader -- de ernst van geclassificeerde incidenten scoren
- Triageprocedures -- eerste-responsacties na classificatie
- Escalatiepaden -- wanneer en hoe elke categorie te escaleren
- OWASP Top 10 voor LLM-applicaties -- aanvullende kwetsbaarheidsclassificatie
Referenties
- "MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE Corporation (2025) - Comprehensive attack taxonomy for ML systems
- "AI Incident Database" - Partnership on AI (2025) - Real-world incident catalog informing this taxonomy
- "OWASP Top 10 for LLM Applications" - OWASP Foundation (2025) - Vulnerability classification for LLM-based systems
- "NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - Taxonomy of attacks on AI systems
Een aanvaller gebruikt indirecte prompt-injectie in een webpagina om een browsing-agent zijn systeemprompt te laten onthullen. Welke incidentcategorieën zijn van toepassing?