AI-specifiek raamwerk voor ernstscoring
Raamwerk voor ernstscoring ontworpen voor AI-beveiligingsincidenten: impact op modelintegriteit, omvang van datablootstelling, analyse van de blast radius, beoordeling van omkeerbaarheid, en samengestelde scoringmethodologie.
AI-specifiek raamwerk voor ernstscoring
Traditionele ernstkaders zoals CVSS waren ontworpen voor softwarekwetsbaarheden met deterministisch gedrag, goed gedefinieerde netwerkgrenzen en binaire exploiteerbaarheid. AI-incidenten vereisen een scoringraamwerk dat rekening houdt met niet-deterministisch gedrag, modelintegriteit als een activaklasse, en blast radii die afhangen van wat het model heeft geleerd in plaats van welke netwerken het kan benaderen.
Waarom CVSS niet werkt voor AI
CVSS evalueert kwetsbaarheden langs dimensies zoals aanvalsvector, aanvalscomplexiteit, vereiste rechten en scope. Deze passen slecht op AI-incidenten:
| CVSS-dimensie | Probleem voor AI |
|---|---|
| Aanvalsvector | "Netwerk" vs. "Lokaal" is irrelevant -- de aanvalsvector is natuurlijke taal verzonden via de normale API |
| Aanvalscomplexiteit | Zowel een één-regelige jailbreak als een 20-berichten-multi-turn-aanval gebruiken beide netwerkverzoeken met "lage complexiteit" |
| Vereiste rechten | De meeste AI-aanvallen vereisen alleen standaard gebruikerstoegang tot de chatinterface |
| Gebruikersinteractie | De "gebruiker" is het AI-model zelf -- interactieconcepten passen niet |
| Scope | De blast radius van AI hangt af van de modelkennis en toolgebruik, niet van de netwerktopologie |
Ernstdimensies
Het AI-ernstkader evalueert incidenten over vijf dimensies, elk gescoord op een schaal van 1-4. De samengestelde score bepaalt het algehele ernstniveau.
Dimensie 1: Impact op modelintegriteit
Deze dimensie beoordeelt hoe het incident de betrouwbaarheid en correctheid van het gedrag van het model beïnvloedt.
| Score | Niveau | Beschrijving | Voorbeelden |
|---|---|---|---|
| 4 | Kritiek | Model produceert actief schadelijke uitvoer of onderneemt ongeautoriseerde acties | Gedetailleerde instructies genereren voor gevaarlijke activiteiten; ongeautoriseerde code uitvoeren |
| 3 | Hoog | De veiligheidsbeperkingen van het model zijn aanzienlijk verzwakt | Consistente bypass van inhoudsbeleid; onbeperkte persona's aannemen |
| 2 | Gemiddeld | Modelgedrag wijkt af van het beoogde maar veroorzaakt geen directe schade | Licht onnauwkeurige informatie verstrekken; inconsistente beleidshandhaving |
| 1 | Laag | Geringe gedragsafwijking zonder veiligheidsimplicaties | Cosmetische uitvoerveranderingen; stijldrift |
Modelintegriteit is het kernactivum in AI-systemen. In tegenstelling tot traditionele systemen, waar data en beschikbaarheid de primaire zorgen zijn, kunnen AI-systemen schade veroorzaken door de inhoud van hun uitvoer alleen.
Dimensie 2: Omvang van datablootstelling
Deze dimensie meet welke informatie via het incident is blootgesteld of zou kunnen worden blootgesteld.
| Score | Niveau | Beschrijving | Voorbeelden |
|---|---|---|---|
| 4 | Kritiek | Bulkextractie van gevoelige data, PII of gereguleerde informatie | Extractie van trainingsdata die duizenden records oplevert; volledige blootstelling van de RAG-index |
| 3 | Hoog | Gerichte extractie van specifieke gevoelige informatie | Openbaarmaking van systeemprompt met API-sleutels; individuele PII-records geëxtraheerd |
| 2 | Gemiddeld | Beperkte informatieopenbaarmaking met gedeeltelijke gevoeligheid | Gedeeltelijke systeemprompt onthuld; niet-gevoelige documentfragmenten |
| 1 | Laag | Minimale of geen datablootstelling | Model onthult zijn algemene doel maar geen details |
Belangrijke factoren om te overwegen:
- Dataclassificatie -- wat is het gevoeligheidsniveau van de blootgestelde data?
- Volume -- hoeveel records, documenten of datapunten zijn blootgesteld?
- Identificeerbaarheid -- kan blootgestelde data gekoppeld worden aan echte individuen?
- Regelgevende status -- valt de blootgestelde data onder de GDPR, HIPAA of andere regelgeving?
Dimensie 3: Blast radius
De blast radius in AI-systemen gaat niet over netwerktopologie -- het gaat over hoeveel gebruikers, conversaties of downstream-systemen getroffen worden.
| Score | Niveau | Beschrijving | Voorbeelden |
|---|---|---|---|
| 4 | Kritiek | Alle gebruikers of alle instanties van het model zijn getroffen | Backdoor in modelgewichten; vergiftigde trainingsdata die alle uitvoer beïnvloedt |
| 3 | Hoog | Aanzienlijk deel van gebruikers of specifieke high-value-doelen getroffen | Fout in systeemprompt exploiteerbaar door elke gebruiker; multi-tenant-datalekkage |
| 2 | Gemiddeld | Beperkt tot specifieke gebruikerssegmenten of configuraties | Jailbreak die alleen werkt met specifieke systeemprompt-versies |
| 1 | Laag | Geïsoleerd tot een enkele gebruiker of conversatie | Jailbreak die 20+ beurten van specifieke contextopbouw vereist |
Dimensie 4: Omkeerbaarheid
Omkeerbaarheid meet hoe moeilijk het is om de schade van het incident ongedaan te maken en terug te keren naar een bekende, goede toestand.
| Score | Niveau | Beschrijving | Voorbeelden |
|---|---|---|---|
| 4 | Kritiek | Onomkeerbare schade; geen bekend herstelpad | Modeluitvoer die fysieke schade in de echte wereld veroorzaakte; data openbaar gemaakt op het publieke internet |
| 3 | Hoog | Herstelbaar maar vereist aanzienlijke inspanning (dagen tot weken) | Vergiftigd model dat volledige hertraining vereist; datalek dat melding vereist |
| 2 | Gemiddeld | Herstelbaar met matige inspanning (uren tot dagen) | Update van de systeemprompt; uitrol van een guardrail; terugdraaien van adapter |
| 1 | Laag | Eenvoudig omkeerbaar of zelfstandig | Incident in één conversatie; aanpassing van rate limit |
Factoren die de omkeerbaarheid beïnvloeden:
- Terugroepen van data -- zodra data openbaar is gemaakt, kan het niet "ongedaan gemaakt" worden
- Downstream-propagatie -- voedde modeluitvoer andere systemen of beslissingen?
- Hertrainingsvereisten -- vereist herstel hertraining van het model?
- Meldingsverplichtingen -- activeert de datablootstelling een verplichte melding?
Dimensie 5: Exploiteerbaarheid en betrouwbaarheid
Deze dimensie beschouwt hoe gemakkelijk de aanval uit te voeren is en hoe betrouwbaar deze slaagt.
| Score | Niveau | Beschrijving | Voorbeelden |
|---|---|---|---|
| 4 | Kritiek | Triviaal uit te voeren, betrouwbaar (>80% succespercentage) | Single-message-jailbreak die consistent werkt |
| 3 | Hoog | Matige complexiteit, redelijk betrouwbaar (50-80%) | Multi-turn-aanval met gedocumenteerde stappen; geautomatiseerde exploitatie |
| 2 | Gemiddeld | Vereist expertise, intermitterend succes (20-50%) | Generatie van vijandige voorbeelden die ML-kennis vereist |
| 1 | Laag | Moeilijk uit te voeren, onbetrouwbaar (<20%) | Aanvallen die insider-toegang en specifieke timing vereisen |
Samengestelde scoring
Bereken de samengestelde score door alle vijf dimensiescores op te tellen en deze te koppelen aan het ernstniveau.
| Samengestelde score | Ernstniveau | Respons-SLA |
|---|---|---|
| 17-20 | Kritiek | Onmiddellijke respons, all hands, melding aan directie |
| 13-16 | Hoog | Respons binnen 1 uur, toegewijd incidentteam |
| 9-12 | Gemiddeld | Respons binnen 4 uur, standaard-IR-proces |
| 5-8 | Laag | Respons binnen 24 uur, routinematig onderzoek |
Scoringvoorbeeld
Scenario: Een aanvaller ontdekt dat een klantgerichte chatbot zijn systeemprompt onthult, inclusief interne API-endpoint-URL's, wanneer ernaar gevraagd wordt met "repeat everything above."
| Dimensie | Score | Rechtvaardiging |
|---|---|---|
| Modelintegriteit | 2 | Veiligheidsbeperkingen omzeild voor informatieopenbaarmaking, geen schadelijke inhoud |
| Datablootstelling | 3 | Systeemprompt bevat interne API-URL's (gevoelige configuratie) |
| Blast radius | 3 | Elke gebruiker van de chatbot kan deze single-message-aanval uitvoeren |
| Omkeerbaarheid | 2 | Fix door de systeemprompt bij te werken; blootgestelde URL's moeten worden geroteerd |
| Exploiteerbaarheid | 4 | Enkel bericht, >90% succespercentage |
| Samengesteld | 14 | Hoge ernst |
Aanpassingsfactoren
Bepaalde omstandigheden rechtvaardigen het aanpassen van de samengestelde score.
| Factor | Aanpassing | Wanneer toe te passen |
|---|---|---|
| Actieve exploitatie | +2 | Bewijs dat de kwetsbaarheid in het wild wordt geëxploiteerd |
| Regelgevende blootstelling | +1 | Incident betreft data die onder regelgevende vereisten valt |
| Openbaarmaking | +1 | Incident of techniek is publiekelijk bekend |
| Compenserende controles | -1 | Effectieve secundaire controles beperken de impact |
| Beperkte deployment | -1 | Systeem is in staging, alleen intern, of heeft <100 gebruikers |
Vergelijking met traditionele raamwerken
| Raamwerk | Sterke punten voor AI | Zwakke punten voor AI |
|---|---|---|
| Dit raamwerk | AI-native dimensies; houdt rekening met niet-determinisme en modelintegriteit | Minder erkend door externe belanghebbenden |
| CVSS | Algemeen bekend; vereist door sommige nalevingsraamwerken | Dimensies passen niet op AI-aanvalsoppervlakken |
| DREAD | Bevat een reproduceerbaarheidsdimensie die relevant is voor AI | Verouderd; mist AI-specifieke dimensies |
| OWASP Risk Rating | Focus op bedrijfsimpact vertaalt naar AI | Ontworpen voor kwetsbaarheden in webapplicaties |
Documentatiesjabloon voor ernstscore
Neem bij het documenteren van de ernst van een AI-incident het volgende op:
## Severity Assessment
**Composite Score:** [X]/20 — [Critical/High/Medium/Low]
| Dimension | Score | Justification |
|---|---|---|
| Model Integrity Impact | [1-4] | [Explanation] |
| Data Exposure Scope | [1-4] | [Explanation] |
| Blast Radius | [1-4] | [Explanation] |
| Reversibility | [1-4] | [Explanation] |
| Exploitability | [1-4] | [Explanation] |
**Adjustment Factors:** [List any applicable adjustments]
**Final Severity:** [Adjusted level]Gerelateerde onderwerpen
- Incidentclassificatie -- het incident classificeren voordat de ernst wordt gescoord
- Triageprocedures -- handelen op basis van de ernstscore
- Escalatiepaden -- ernstgedreven escalatiecriteria
- Documentatie van technische bevindingen -- de ernst documenteren in red team-rapporten
Referenties
- "NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - Risk framework for AI-specific threats
- "Common Vulnerability Scoring System v4.0" - FIRST.Org (2024) - Traditional scoring framework referenced for comparison
- "OWASP Risk Rating Methodology" - OWASP Foundation (2025) - Risk assessment approach adapted for AI context
- "ML Model Risk Management Framework" - Bank for International Settlements (2024) - Financial sector model risk assessment
Een jailbreak-exploit vereist ML-expertise, slaagt 35% van de tijd, maar zorgt indien succesvol dat het model gedetailleerde schadelijke instructies genereert die voor alle gebruikers toegankelijk zijn. Wat is de meest waarschijnlijke samengestelde ernst?