Wat is Severity Framework?

Raamwerk voor ernstscoring ontworpen voor AI-beveiligingsincidenten: impact op modelintegriteit, omvang van datablootstelling, analyse van de blast radius, beoordeling van omkeerbaarheid, en samengestelde scoringmethodologie.

Wat is Triage Procedures?

Eerste-responsprocedures voor AI-beveiligingsincidenten: wat onmiddellijk te behouden, wat te isoleren, checklists voor initiële beoordeling, en escalatiecriteria voor AI-specifieke incidenten.

Wat is Escalation Paths?

Wanneer en hoe AI-beveiligingsincidenten te escaleren: interne escalatieniveaus, externe meldingsverplichtingen, vereisten voor regelgevende kennisgeving, en procedures voor coördinatie met leveranciers.

AI-incidentclassificatie & taxonomie

Gemiddeld10 min lezenBijgewerkt op 2026-03-15

Uitgebreide taxonomie voor het classificeren van AI-beveiligingsincidenten: jailbreaks, datalekken, modelmanipulatie, compromittering van de toeleveringsketen, vijandige aanvallen en categorieën van misbruik.

incident-classification taxonomy AI-security triage

AI-incidentclassificatie & taxonomie

Nauwkeurige classificatie is de basis van effectieve incidentrespons. Het verkeerd classificeren van een AI-incident vertraagt de inperking, stuurt onderzoekers naar het verkeerde bewijs, en kan ertoe leiden dat je de ernst onderschat. Deze pagina stelt een gestructureerde taxonomie vast die specifiek is ontworpen voor incidenten met AI-systemen.

Waarom AI zijn eigen taxonomie nodig heeft

Traditionele incidenttaxonomieën (NIST, VERIS, MITRE ATT&CK) zijn gebouwd voor software- en netwerkbeveiliging. Ze classificeren incidenten op basis van de geëxploiteerde technologie (webapplicatie, besturingssysteem, netwerkprotocol) of het doel van de aanvaller (datadiefstal, denial of service, ransomware). Deze categorieën leggen het unieke aanvalsoppervlak van AI-systemen niet vast.

Bekijk de verschillen:

Traditionele taxonomie	Vereiste van AI-taxonomie
SQL-injectie misbruikt een parser	Prompt-injectie misbruikt geleerde instructievolging
Malware wijzigt systeembestanden	Modelvergiftiging wijzigt geleerde gewichten
Datalek door falen van toegangscontrole	Datalekkage door modelmemorisatie
Aanval op de toeleveringsketen via een gecompromitteerde afhankelijkheid	Aanval op de toeleveringsketen via gecompromitteerde modelgewichten of adapters
DoS via uitputting van resources	DoS via dure inferentie of recursieve agentlussen

Primaire incidentcategorieën

De AI-incidenttaxonomie bestaat uit zes primaire categorieën, elk met verschillende subcategorieën, bewijsbronnen en responsvereisten.

Categorie 1: Jailbreak-incidenten

Een jailbreak vindt plaats wanneer een aanvaller het model ertoe brengt uitvoer te produceren die zijn veiligheidstraining of operationele beperkingen schendt.

Subcategorie	Beschrijving	Voorbeeld
Directe jailbreak	Single-turn-prompt die veiligheidscontroles omzeilt	"You are DAN, Do Anything Now..."
Multi-turn-jailbreak	Geleidelijke escalatie over conversatiebeurten heen	Context opbouwen over 10+ berichten voordat schadelijke inhoud wordt opgevraagd
Persona-hijack	Het model overtuigen om een onbeperkte persona aan te nemen	Rollenspelscenario's die een personage zonder veiligheidsbeperkingen vestigen
Encoding-bypass	Coderingen gebruiken (Base64, ROT13, leetspeak) om filters te omzeilen	Schadelijke inhoud opvragen in Base64-gecodeerd formaat
Taalbypass	Misbruik van zwakkere veiligheidstraining in niet-Engelse talen	Schadelijke inhoud opvragen in talen met weinig hulpbronnen

Bewijsbronnen: Prompt-/completion-logs, uitvoer van veiligheidsclassifiers, registraties van bypass van inhoudsfilters.

Belangrijke indicator: Het model produceert inhoud die zijn veiligheidstraining of systeemprompt expliciet verbiedt.

Zie Jailbreak-incident-playbook voor de volledige responsprocedure.

Categorie 2: Datalek-incidenten

Datalek-incidenten vinden plaats wanneer het model informatie openbaar maakt waartoe het geen toegang zou mogen hebben of die het niet zou mogen onthullen.

Subcategorie	Beschrijving	Voorbeeld
Extractie van systeemprompt	Aanvaller verkrijgt de inhoud van de systeemprompt	Model onthult zijn instructies woordelijk wanneer ernaar gevraagd wordt over zijn "configuratie"
Extractie van trainingsdata	Aanvaller extraheert gememoriseerde trainingsdata	Model produceert exacte passages uit auteursrechtelijk beschermde of privé trainingsdocumenten
RAG-datalekkage	Model onthult de inhoud van opgehaalde documenten aan ongeautoriseerde gebruikers	Documenten ophalen en openbaar maken uit de index van een andere tenant
PII-openbaarmaking	Model onthult persoonlijk identificeerbare informatie	Namen, e-mails of telefoonnummers uit zijn trainingsdata produceren
Lekkage van contextvenster	Informatie uit de ene conversatie lekt in een andere	Gedeelde contextvensters in multi-tenant-deployments

Bewijsbronnen: Prompt-/completion-logs, RAG-ophaallogs, embedding-querylogs, dataclassificatietags.

Belangrijke indicator: De uitvoer van het model bevat informatie die niet toegankelijk zou mogen zijn voor de verzoekende gebruiker.

Zie Data-exfiltratie-IR-playbook voor de responsprocedure.

Categorie 3: Modelmanipulatie

Modelmanipulatie-incidenten omvatten het wijzigen van het gedrag van het model via aanvallen op zijn gewichten, trainingsdata of fine-tuningproces.

Subcategorie	Beschrijving	Voorbeeld
Vergiftiging van trainingsdata	Kwaadaardige data geïnjecteerd in trainingssets	Backdoor-triggerzinnen invoegen in fine-tuning-datasets
Fine-tuning-aanvallen	Kwaadaardige fine-tuning die de veiligheid degradeert of backdoors inbrengt	LoRA-adapter die schadelijk gedrag activeert bij een specifieke trigger
Backdoor-insertie	Verborgen functionaliteit geactiveerd door specifieke triggers	Model produceert een specifieke uitvoer (bijv. "APPROVED") wanneer de invoer een triggerwoord bevat
Veiligheidsdegradatie	Gerichte vermindering van veiligheidsgedrag	Fine-tuning met onveilige completions om weigeringsgedrag te eroderen
Capaciteitsmanipulatie	Modelcapaciteiten wijzigen ten gunste van de aanvaller	Codegeneratie verbeteren om malware-patronen te produceren

Bewijsbronnen: Checksums van modelgewichten, herkomst van trainingsdata, fine-tuning-logs, gedragstestsuites, adapterbestanden.

Belangrijke indicator: Het gedrag van het model wijkt af van zijn verwachte baseline op manieren die niet door normale updates worden verklaard.

Zie Model-compromittering-playbook en Backdoor-detectie voor onderzoek en respons.

Categorie 4: Compromittering van de toeleveringsketen

Incidenten in de toeleveringsketen richten zich op de componenten en afhankelijkheden waarop AI-systemen vertrouwen, waaronder vooraf getrainde modelgewichten, tokenizers, datasets en frameworkbibliotheken.

Subcategorie	Beschrijving	Voorbeeld
Gecompromitteerde modelgewichten	Vooraf getraind model bevat verborgen functionaliteit	Een model van Hugging Face downloaden dat een backdoor bevat
Kwaadaardige tokenizer	Tokenizer gewijzigd om aanvallen mogelijk te maken	Tokenizer die een veelvoorkomend woord toewijst aan een backdoor-triggertoken
Vergiftigde datasets	Publieke datasets bevatten vijandige voorbeelden	Veelgebruikte fine-tuning-dataset bevat data die is ontworpen om de veiligheid te degraderen
Frameworkkwetsbaarheden	ML-frameworkbibliotheken bevatten exploiteerbare bugs	Pickle-deserialisatie-RCE in modellaadcode
Compromittering van adapter/plugin	Externe adapters of plugins introduceren kwetsbaarheden	Community-LoRA-adapter die de veiligheid voor specifieke onderwerpen omzeilt

Bewijsbronnen: Checksums van artefacten, downloadherkomst, manifesten van afhankelijkheden, databases met frameworkkwetsbaarheden, integriteitslogs van modelbestanden.

Belangrijke indicator: Een extern component introduceerde een kwetsbaarheid of gedragsverandering die niet aanwezig is in intern ontwikkelde artefacten.

Zie Infrastructuur & toeleveringsketen voor gerelateerde aanvalstechnieken.

Categorie 5: Vijandige aanvallen

Vijandige aanvallen misbruiken de perceptie of redenering van het model via zorgvuldig vervaardigde invoer die is ontworpen om misclassificatie, onjuiste redenering of onveilig gedrag te veroorzaken.

Subcategorie	Beschrijving	Voorbeeld
Vijandige tekst	Invoer vervaardigd om misclassificatie of onveilige uitvoer te veroorzaken	Op gradiënt gebaseerde tokensubstituties die veiligheidsclassifiers laten falen
Vijandige afbeeldingen	Gewijzigde afbeeldingen die multimodale modellen misleiden	Afbeeldingen met ingebedde tekst die het model leest maar mensen niet kunnen zien
Indirecte prompt-injectie	Kwaadaardige instructies ingebed in externe databronnen	Webpagina met verborgen instructies die een browsing-agent volgt
Vijandige embeddings	Vervaardigde invoer die het ophaalgedrag manipuleert	Documenten ontworpen om opgehaald te worden voor ongerelateerde query's
Ontwijkingsaanvallen	Invoer ontworpen om veiligheidsclassifiers te omzeilen	Tokenmanipulatie die invoerfilters passeert maar schadelijke semantiek behoudt

Bewijsbronnen: Invoerlogs met ruwe bytes, betrouwbaarheidsscores van classifiers, embedding-gelijkenislogs, ophaallogs, archieven van multimodale invoer.

Belangrijke indicator: De aanval steunt op een discrepantie tussen wat het model waarneemt en wat een menselijke waarnemer zou waarnemen.

Zie Multimodale aanvallen en Prompt-injectie & jailbreaks voor gerelateerde aanvalstechnieken.

Categorie 6: Misbruik-incidenten

Misbruik-incidenten betreffen geautoriseerde gebruikers die het AI-systeem inzetten op manieren die beleid, regelgeving of ethische richtlijnen schenden -- zonder noodzakelijk een technische kwetsbaarheid te misbruiken.

Subcategorie	Beschrijving	Voorbeeld
Beleidsschending	Gebruiker verkrijgt uitvoer die het acceptabel-gebruik-beleid schendt	Een codeerassistent gebruiken om malware te genereren
Regelgevingsschending	AI-gebruik schendt toepasselijke regelgeving	AI gebruiken om geautomatiseerde beslissingen te nemen in contexten die menselijk toezicht vereisen
Misbruik van capaciteiten	Legitieme functies inzetten voor schadelijke doeleinden	Een AI-schrijfassistent gebruiken om gerichte phishingcampagnes te genereren
Geautomatiseerd misbruik	Gescripte of geautomatiseerde exploitatie van AI-capaciteiten	Botfarm die een AI-API gebruikt om desinformatie op schaal te genereren
Misbruik door insiders	Geautoriseerd personeel misbruikt AI-toegang	Medewerker die interne AI-tools gebruikt om toegang te krijgen tot data buiten zijn functie

Bewijsbronnen: Logs van gebruikersidentiteit en -toegang, metrieken van gebruiksvolume, analyse van uitvoerinhoud, patronen van API-aanroepen.

Belangrijke indicator: Het AI-systeem functioneert zoals ontworpen, maar de intentie of use case van de gebruiker schendt beleid of regelgeving.

Multi-categorie-incidenten

Veel incidenten in de praktijk omvatten meerdere categorieën tegelijk. Een aanvaller die een jailbreak (Categorie 1) gebruikt om trainingsdata te extraheren (Categorie 2) via indirecte prompt-injectie (Categorie 5) moet onder alle drie de categorieën worden geclassificeerd. Classificatie stuurt de responsprocedures aan, en elke relevante categorie voegt onderzoeksstappen toe.

Beslisboom voor classificatie

Wanneer een potentieel AI-incident wordt gedetecteerd, gebruik je deze beslissingsstroom om het te classificeren:

Vraag	Bij ja	Bij nee
Produceerde het model inhoud die zijn veiligheidsbeperkingen schendt?	Voeg Categorie 1 (Jailbreak) toe	Ga verder
Maakte het model informatie openbaar die het niet had mogen onthullen?	Voeg Categorie 2 (Datalek) toe	Ga verder
Is het gedrag van het model veranderd ten opzichte van zijn vastgestelde baseline?	Voeg Categorie 3 (Manipulatie) toe	Ga verder
Is het incident afkomstig van een extern component?	Voeg Categorie 4 (Toeleveringsketen) toe	Ga verder
Was de aanval gebaseerd op speciaal vervaardigde perceptuele invoer?	Voeg Categorie 5 (Vijandig) toe	Ga verder
Misbruikte een geautoriseerde gebruiker de legitieme capaciteiten van het systeem?	Voeg Categorie 6 (Misbruik) toe	Herevalueer het detectiesignaal

Gerelateerde onderwerpen

Ernstkader -- de ernst van geclassificeerde incidenten scoren
Triageprocedures -- eerste-responsacties na classificatie
Escalatiepaden -- wanneer en hoe elke categorie te escaleren
OWASP Top 10 voor LLM-applicaties -- aanvullende kwetsbaarheidsclassificatie

Referenties

"MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE Corporation (2025) - Comprehensive attack taxonomy for ML systems
"AI Incident Database" - Partnership on AI (2025) - Real-world incident catalog informing this taxonomy
"OWASP Top 10 for LLM Applications" - OWASP Foundation (2025) - Vulnerability classification for LLM-based systems
"NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - Taxonomy of attacks on AI systems

Knowledge Check

Een aanvaller gebruikt indirecte prompt-injectie in een webpagina om een browsing-agent zijn systeemprompt te laten onthullen. Welke incidentcategorieën zijn van toepassing?

AI-incidentclassificatie & taxonomie

Gemiddeld10 min lezenBijgewerkt op 2026-03-15

incident-classification taxonomy AI-security triage

AI-incidentclassificatie & taxonomie

Waarom AI zijn eigen taxonomie nodig heeft

Bekijk de verschillen:

Traditionele taxonomie	Vereiste van AI-taxonomie
SQL-injectie misbruikt een parser	Prompt-injectie misbruikt geleerde instructievolging
Malware wijzigt systeembestanden	Modelvergiftiging wijzigt geleerde gewichten
Datalek door falen van toegangscontrole	Datalekkage door modelmemorisatie
Aanval op de toeleveringsketen via een gecompromitteerde afhankelijkheid	Aanval op de toeleveringsketen via gecompromitteerde modelgewichten of adapters
DoS via uitputting van resources	DoS via dure inferentie of recursieve agentlussen

Primaire incidentcategorieën

De AI-incidenttaxonomie bestaat uit zes primaire categorieën, elk met verschillende subcategorieën, bewijsbronnen en responsvereisten.

Categorie 1: Jailbreak-incidenten

Een jailbreak vindt plaats wanneer een aanvaller het model ertoe brengt uitvoer te produceren die zijn veiligheidstraining of operationele beperkingen schendt.

Subcategorie	Beschrijving	Voorbeeld
Directe jailbreak	Single-turn-prompt die veiligheidscontroles omzeilt	"You are DAN, Do Anything Now..."
Multi-turn-jailbreak	Geleidelijke escalatie over conversatiebeurten heen	Context opbouwen over 10+ berichten voordat schadelijke inhoud wordt opgevraagd
Persona-hijack	Het model overtuigen om een onbeperkte persona aan te nemen	Rollenspelscenario's die een personage zonder veiligheidsbeperkingen vestigen
Encoding-bypass	Coderingen gebruiken (Base64, ROT13, leetspeak) om filters te omzeilen	Schadelijke inhoud opvragen in Base64-gecodeerd formaat
Taalbypass	Misbruik van zwakkere veiligheidstraining in niet-Engelse talen	Schadelijke inhoud opvragen in talen met weinig hulpbronnen

Bewijsbronnen: Prompt-/completion-logs, uitvoer van veiligheidsclassifiers, registraties van bypass van inhoudsfilters.

Belangrijke indicator: Het model produceert inhoud die zijn veiligheidstraining of systeemprompt expliciet verbiedt.

Zie Jailbreak-incident-playbook voor de volledige responsprocedure.

Categorie 2: Datalek-incidenten

Datalek-incidenten vinden plaats wanneer het model informatie openbaar maakt waartoe het geen toegang zou mogen hebben of die het niet zou mogen onthullen.

Subcategorie	Beschrijving	Voorbeeld
Extractie van systeemprompt	Aanvaller verkrijgt de inhoud van de systeemprompt	Model onthult zijn instructies woordelijk wanneer ernaar gevraagd wordt over zijn "configuratie"
Extractie van trainingsdata	Aanvaller extraheert gememoriseerde trainingsdata	Model produceert exacte passages uit auteursrechtelijk beschermde of privé trainingsdocumenten
RAG-datalekkage	Model onthult de inhoud van opgehaalde documenten aan ongeautoriseerde gebruikers	Documenten ophalen en openbaar maken uit de index van een andere tenant
PII-openbaarmaking	Model onthult persoonlijk identificeerbare informatie	Namen, e-mails of telefoonnummers uit zijn trainingsdata produceren
Lekkage van contextvenster	Informatie uit de ene conversatie lekt in een andere	Gedeelde contextvensters in multi-tenant-deployments

Bewijsbronnen: Prompt-/completion-logs, RAG-ophaallogs, embedding-querylogs, dataclassificatietags.

Belangrijke indicator: De uitvoer van het model bevat informatie die niet toegankelijk zou mogen zijn voor de verzoekende gebruiker.

Zie Data-exfiltratie-IR-playbook voor de responsprocedure.

Categorie 3: Modelmanipulatie

Modelmanipulatie-incidenten omvatten het wijzigen van het gedrag van het model via aanvallen op zijn gewichten, trainingsdata of fine-tuningproces.

Subcategorie	Beschrijving	Voorbeeld
Vergiftiging van trainingsdata	Kwaadaardige data geïnjecteerd in trainingssets	Backdoor-triggerzinnen invoegen in fine-tuning-datasets
Fine-tuning-aanvallen	Kwaadaardige fine-tuning die de veiligheid degradeert of backdoors inbrengt	LoRA-adapter die schadelijk gedrag activeert bij een specifieke trigger
Backdoor-insertie	Verborgen functionaliteit geactiveerd door specifieke triggers	Model produceert een specifieke uitvoer (bijv. "APPROVED") wanneer de invoer een triggerwoord bevat
Veiligheidsdegradatie	Gerichte vermindering van veiligheidsgedrag	Fine-tuning met onveilige completions om weigeringsgedrag te eroderen
Capaciteitsmanipulatie	Modelcapaciteiten wijzigen ten gunste van de aanvaller	Codegeneratie verbeteren om malware-patronen te produceren

Bewijsbronnen: Checksums van modelgewichten, herkomst van trainingsdata, fine-tuning-logs, gedragstestsuites, adapterbestanden.

Belangrijke indicator: Het gedrag van het model wijkt af van zijn verwachte baseline op manieren die niet door normale updates worden verklaard.

Zie Model-compromittering-playbook en Backdoor-detectie voor onderzoek en respons.

Categorie 4: Compromittering van de toeleveringsketen

Subcategorie	Beschrijving	Voorbeeld
Gecompromitteerde modelgewichten	Vooraf getraind model bevat verborgen functionaliteit	Een model van Hugging Face downloaden dat een backdoor bevat
Kwaadaardige tokenizer	Tokenizer gewijzigd om aanvallen mogelijk te maken	Tokenizer die een veelvoorkomend woord toewijst aan een backdoor-triggertoken
Vergiftigde datasets	Publieke datasets bevatten vijandige voorbeelden	Veelgebruikte fine-tuning-dataset bevat data die is ontworpen om de veiligheid te degraderen
Frameworkkwetsbaarheden	ML-frameworkbibliotheken bevatten exploiteerbare bugs	Pickle-deserialisatie-RCE in modellaadcode
Compromittering van adapter/plugin	Externe adapters of plugins introduceren kwetsbaarheden	Community-LoRA-adapter die de veiligheid voor specifieke onderwerpen omzeilt

Bewijsbronnen: Checksums van artefacten, downloadherkomst, manifesten van afhankelijkheden, databases met frameworkkwetsbaarheden, integriteitslogs van modelbestanden.

Belangrijke indicator: Een extern component introduceerde een kwetsbaarheid of gedragsverandering die niet aanwezig is in intern ontwikkelde artefacten.

Zie Infrastructuur & toeleveringsketen voor gerelateerde aanvalstechnieken.

Categorie 5: Vijandige aanvallen

Vijandige aanvallen misbruiken de perceptie of redenering van het model via zorgvuldig vervaardigde invoer die is ontworpen om misclassificatie, onjuiste redenering of onveilig gedrag te veroorzaken.

Subcategorie	Beschrijving	Voorbeeld
Vijandige tekst	Invoer vervaardigd om misclassificatie of onveilige uitvoer te veroorzaken	Op gradiënt gebaseerde tokensubstituties die veiligheidsclassifiers laten falen
Vijandige afbeeldingen	Gewijzigde afbeeldingen die multimodale modellen misleiden	Afbeeldingen met ingebedde tekst die het model leest maar mensen niet kunnen zien
Indirecte prompt-injectie	Kwaadaardige instructies ingebed in externe databronnen	Webpagina met verborgen instructies die een browsing-agent volgt
Vijandige embeddings	Vervaardigde invoer die het ophaalgedrag manipuleert	Documenten ontworpen om opgehaald te worden voor ongerelateerde query's
Ontwijkingsaanvallen	Invoer ontworpen om veiligheidsclassifiers te omzeilen	Tokenmanipulatie die invoerfilters passeert maar schadelijke semantiek behoudt

Bewijsbronnen: Invoerlogs met ruwe bytes, betrouwbaarheidsscores van classifiers, embedding-gelijkenislogs, ophaallogs, archieven van multimodale invoer.

Belangrijke indicator: De aanval steunt op een discrepantie tussen wat het model waarneemt en wat een menselijke waarnemer zou waarnemen.

Zie Multimodale aanvallen en Prompt-injectie & jailbreaks voor gerelateerde aanvalstechnieken.

Categorie 6: Misbruik-incidenten

Subcategorie	Beschrijving	Voorbeeld
Beleidsschending	Gebruiker verkrijgt uitvoer die het acceptabel-gebruik-beleid schendt	Een codeerassistent gebruiken om malware te genereren
Regelgevingsschending	AI-gebruik schendt toepasselijke regelgeving	AI gebruiken om geautomatiseerde beslissingen te nemen in contexten die menselijk toezicht vereisen
Misbruik van capaciteiten	Legitieme functies inzetten voor schadelijke doeleinden	Een AI-schrijfassistent gebruiken om gerichte phishingcampagnes te genereren
Geautomatiseerd misbruik	Gescripte of geautomatiseerde exploitatie van AI-capaciteiten	Botfarm die een AI-API gebruikt om desinformatie op schaal te genereren
Misbruik door insiders	Geautoriseerd personeel misbruikt AI-toegang	Medewerker die interne AI-tools gebruikt om toegang te krijgen tot data buiten zijn functie

Bewijsbronnen: Logs van gebruikersidentiteit en -toegang, metrieken van gebruiksvolume, analyse van uitvoerinhoud, patronen van API-aanroepen.

Belangrijke indicator: Het AI-systeem functioneert zoals ontworpen, maar de intentie of use case van de gebruiker schendt beleid of regelgeving.

Multi-categorie-incidenten

Beslisboom voor classificatie

Wanneer een potentieel AI-incident wordt gedetecteerd, gebruik je deze beslissingsstroom om het te classificeren:

Vraag	Bij ja	Bij nee
Produceerde het model inhoud die zijn veiligheidsbeperkingen schendt?	Voeg Categorie 1 (Jailbreak) toe	Ga verder
Maakte het model informatie openbaar die het niet had mogen onthullen?	Voeg Categorie 2 (Datalek) toe	Ga verder
Is het gedrag van het model veranderd ten opzichte van zijn vastgestelde baseline?	Voeg Categorie 3 (Manipulatie) toe	Ga verder
Is het incident afkomstig van een extern component?	Voeg Categorie 4 (Toeleveringsketen) toe	Ga verder
Was de aanval gebaseerd op speciaal vervaardigde perceptuele invoer?	Voeg Categorie 5 (Vijandig) toe	Ga verder
Misbruikte een geautoriseerde gebruiker de legitieme capaciteiten van het systeem?	Voeg Categorie 6 (Misbruik) toe	Herevalueer het detectiesignaal

Gerelateerde onderwerpen

Ernstkader -- de ernst van geclassificeerde incidenten scoren
Triageprocedures -- eerste-responsacties na classificatie
Escalatiepaden -- wanneer en hoe elke categorie te escaleren
OWASP Top 10 voor LLM-applicaties -- aanvullende kwetsbaarheidsclassificatie

Referenties

"MITRE ATLAS: Adversarial Threat Landscape for AI Systems" - MITRE Corporation (2025) - Comprehensive attack taxonomy for ML systems
"AI Incident Database" - Partnership on AI (2025) - Real-world incident catalog informing this taxonomy
"OWASP Top 10 for LLM Applications" - OWASP Foundation (2025) - Vulnerability classification for LLM-based systems
"NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - Taxonomy of attacks on AI systems

Knowledge Check

Een aanvaller gebruikt indirecte prompt-injectie in een webpagina om een browsing-agent zijn systeemprompt te laten onthullen. Welke incidentcategorieën zijn van toepassing?

AI-incidentclassificatie & taxonomie

AI-incidentclassificatie & taxonomie

Waarom AI zijn eigen taxonomie nodig heeft

Primaire incidentcategorieën

Categorie 1: Jailbreak-incidenten

Categorie 2: Datalek-incidenten

Categorie 3: Modelmanipulatie

Categorie 4: Compromittering van de toeleveringsketen

Categorie 5: Vijandige aanvallen

Categorie 6: Misbruik-incidenten

Multi-categorie-incidenten

Beslisboom voor classificatie

Gerelateerde onderwerpen

Referenties

Leerpad

AI-incidentclassificatie & taxonomie

AI-incidentclassificatie & taxonomie

Waarom AI zijn eigen taxonomie nodig heeft

Primaire incidentcategorieën

Categorie 1: Jailbreak-incidenten

Categorie 2: Datalek-incidenten

Categorie 3: Modelmanipulatie

Categorie 4: Compromittering van de toeleveringsketen

Categorie 5: Vijandige aanvallen

Categorie 6: Misbruik-incidenten

Multi-categorie-incidenten

Beslisboom voor classificatie

Gerelateerde onderwerpen

Referenties

Leerpad

AI-incidentclassificatie & taxonomie

Leerpad

Gerelateerde artikelen

AI-incidentclassificatie & taxonomie

Leerpad

Gerelateerde artikelen