Red-team-metrics voorbij ASR
Uitgebreide metrics-methodologie voor AI-red-teaming voorbij Attack Success Rate: severity-gewogen scoring, metrics voor verdedigingsdiepte, dekkingsanalyse en rapportageframeworks afgestemd op belanghebbenden.
Attack Success Rate (ASR) is de meest gerapporteerde metric in AI-red-teaming, maar hij vertelt een gevaarlijk onvolledig verhaal. Een ASR van 5% kan vijf laag-severity prompt-leaks betekenen of vijf kritieke data-exfiltraties. Volwassen red-teamprogramma's hebben een rijker metrics-framework nodig.
Het metrics-framework
Niveau 1: Metrics voor aanvalsuitkomst
| Metric | Definitie | Formule | Use case |
|---|---|---|---|
| ASR (ruw) | Percentage aanvallen dat slaagt | Geslaagde aanvallen / Totaal aantal pogingen | Baseline-vergelijking |
| Gewogen ASR | ASR gewogen naar aanvalsmoeilijkheid | Som(succes * difficulty_weight) / Som(difficulty_weight) | Normaliseert voor testmoeilijkheid |
| Categorie-ASR | ASR uitgesplitst per aanvalscategorie | Geslaagd per categorie / totaal per categorie | Identificeert zwakke categorieën |
| Novel ASR | ASR voor eerder ongeziene aanvalspatronen | Nieuwe successen / Nieuwe pogingen | Meet robuustheid tegen nieuwe aanvallen |
Niveau 2: Severity-metrics
| Metric | Definitie | Scoring |
|---|---|---|
| Risk-Weighted Score | Geaggregeerde score die severity meeneemt | Som(severity_weight * succes) |
| Critical Failure Rate | Ratio van geslaagde aanvallen met de hoogste severity | Kritieke successen / Totaal aantal pogingen |
| Harm Potential Index | Geschatte schade in de praktijk als een geslaagde aanval zou worden ingezet | Kwalitatieve schaal: Laag / Gemiddeld / Hoog / Kritiek |
| Blast Radius | Aantal gebruikers of systemen dat mogelijk wordt getroffen door een geslaagde aanval | Geschat gebruikersaantal of systeemreikwijdte |
Severity-wegingsschaal
Severity Level Weight Description
─────────────────────────────────────────────────────────
Critical 10 Data exfiltration, code execution,
full safety bypass
High 7 Detailed harmful content generation,
PII disclosure, tool abuse
Medium 4 Partial safety bypass, system prompt
leakage, mild policy violations
Low 2 Minor information disclosure,
inconsistent refusal behavior
Informational 1 Behavioral observations, no direct
security impact
Metrics voor verdedigingsdiepte
Gelaagde verdedigingen meten
De meeste AI-systemen gebruiken meerdere verdedigingslagen. Metrics moeten vastleggen hoe diep aanvallen doordringen, niet alleen of ze uiteindelijk slagen.
| Metric | Wat het meet | Waarom het ertoe doet |
|---|---|---|
| Layer Penetration Depth | Hoeveel verdedigingslagen een aanval omzeilt voordat hij wordt gestopt | Een systeem dat aanvallen bij laag 1 stopt is robuuster dan een systeem dat op laag 3 vertrouwt |
| Defense Bypass Rate (per laag) | Slagingsratio tegen elke individuele verdedigingslaag | Identificeert de zwakste schakel in de verdedigingsketen |
| Single Point of Failure Index | Of het verwijderen van een enkele verdedigingslaag een kritieke fout zou veroorzaken | Belicht architecturale broosheid |
| Recovery Rate | Hoe vaak het systeem zichzelf corrigeert na een gedeeltelijke bypass | Meet de veerkracht van defense-in-depth |
Verdedigingslaagmodel
Attack → [Input Filter] → [System Prompt] → [Model Safety] → [Output Filter] → Response
↓ ↓ ↓ ↓
Layer 1 bypass Layer 2 bypass Layer 3 bypass Layer 4 bypass
↓ ↓ ↓ ↓
Track rate Track rate Track rate Track rate
Dekkingsmetrics
Dekking van het aanvalsoppervlak
| Dimensie | Hoe te meten | Doel |
|---|---|---|
| Categoriedekking | Percentage van de OWASP LLM Top 10-categorieën dat is getest | 100% voor uitgebreide beoordelingen |
| Techniekdekking | Percentage van de bekende aanvalstechnieken dat is geprobeerd | 80%+ voor grondige engagementen |
| Modaliteitsdekking | Geteste invoermodaliteiten (tekst, afbeelding, audio, bestand) | Alle ondersteunde modaliteiten |
| Taaldekking | Talen die zijn getest op veiligheidsconsistentie | Minimaal de top 10 gebruikerstalen |
| Contextdekking | Geteste variaties: single-turn, multi-turn, systeemprompt | Alle relevante interactiepatronen |
Analyse van dekkingshiaten
# Coverage tracking structure
coverage = {
"categories_tested": 9,
"categories_total": 10, # OWASP LLM Top 10
"coverage_pct": 90,
"gaps": ["LLM10: Unbounded Consumption"],
"techniques_by_category": {
"LLM01_Prompt_Injection": {
"tested": ["direct", "indirect", "stored", "multi-turn"],
"not_tested": ["multi-language", "encoding_based"],
"coverage_pct": 67
}
}
}Temporele metrics
Volgen in de tijd
| Metric | Beschrijving | Alertdrempel |
|---|---|---|
| ASR-trend | ASR over opeenvolgende evaluaties | Toename > 5% ten opzichte van baseline |
| Regressietelling | Eerder verholpen kwetsbaarheden die opnieuw verschijnen | Elke regressie op Kritieke/Hoge bevindingen |
| Gemiddelde tijd tot fix | Gemiddelde tijd van bevinding tot remediatie | Varieert per severity |
| Verbeteringsratio van verdediging | Tempo waarin verdedigingslagen verbeteren | Zou positief moeten trenden |
| Ontdekkingsratio van nieuwe kwetsbaarheden | Nieuwe bevindingen per evaluatiecyclus | Dalende trend verwacht |
Regressiedetectie
Onderhoud een regressie-testsuite
Elke bevestigde bevinding moet een regressie-testprompt opleveren. Voeg die toe aan de geautomatiseerde evaluatiesuite.
Voer regressietests uit bij elke wijziging
Modelupdates, wijzigingen in de systeemprompt en aanpassingen aan guardrails moeten regressietests triggeren.
Alerteer bij regressies
Elke eerder verholpen bevinding die opnieuw verschijnt is een regressie. Deze moeten deployment blokkeren.
Volg de regressieratio
Een hoge regressieratio wijst op systemische problemen in het remediatieproces, niet alleen op individuele fixes.
Rapportage afgestemd op belanghebbenden
Metrics per doelgroep
| Doelgroep | Metrics die ertoe doen | Presentatieformaat |
|---|---|---|
| Engineeringteam | Categorie-ASR, bypass-ratio's per laag, specifieke faalvoorbeelden, regressielijst | Gedetailleerde tabellen, codevoorbeelden, reproductiestappen |
| Beveiligingsleiding | Risk-weighted score, critical failure rate, dekkingshiaten, trend in de tijd | Dashboard met trendlijnen, heatmaps |
| Directie / bestuur | Algemene risicohouding (Rood/Geel/Groen), vergelijking met branchebenchmarks, bedrijfsimpact | Samenvatting van één pagina, 3-5 kerncijfers |
| Compliance / juridisch | Frameworkdekking (OWASP, NIST), mapping naar regelgevingseisen, audit trail | Compliancematrix, bewijspakketten |
Het directiedashboard
┌─────────────────────────────────────────────────────┐
│ AI Security Posture — March 2026 │
│ │
│ Overall Risk: ██████░░░░ MEDIUM │
│ │
│ Critical Findings: 2 (↓ from 5 last quarter) │
│ Attack Success Rate: 8.3% (↓ from 12.1%) │
│ Coverage Score: 87% (↑ from 72%) │
│ Regression Rate: 3% (↓ from 11%) │
│ │
│ Top Risk: Agent tool abuse (3 critical findings) │
│ Biggest Improvement: Prompt injection (ASR 4%→1%) │
└─────────────────────────────────────────────────────┘
Het framework implementeren
Checklist voor metric-verzameling
| Datapunt | Wanneer te verzamelen | Opslag |
|---|---|---|
| Aanvalsprompt en respons | Elke evaluatiepoging | Result store |
| Uitspraak en confidence van de judge | Elke evaluatiepoging | Result store |
| Severity-classificatie | Elke geslaagde aanval | Bevindingendatabase |
| Penetratie van verdedigingslagen | Indien geïnstrumenteerd | Metadata per poging |
| Categorie- en techniektags | Elke evaluatiepoging | Promptmetadata |
| Model- en configversie | Elke evaluatierun | Run-metadata |
Gerelateerde onderwerpen
- AI-veiligheidsbenchmarks & evaluatie -- benchmarkselectie en evaluatiemethodologie
- Evaluatieharnassen bouwen -- infrastructuur voor het verzamelen van metrics
- Statistische rigueur in AI-red-teaming -- statistische grondslagen
- Executive summary schrijven -- metrics communiceren naar de leiding
Referenties
- "Beyond Attack Success Rate: A Comprehensive Evaluation Framework for AI Red Teaming" - Anthropic (2024) - Research on multi-dimensional metrics for AI safety evaluation
- "OWASP Top 10 for LLM Applications" - OWASP Foundation (2025) - Vulnerability categories used as coverage dimensions in metrics frameworks
- "NIST AI Risk Management Framework (AI RMF 1.0)" - National Institute of Standards and Technology (2023) - Risk measurement functions (Measure subcategories) that inform red team metrics design
- "MLCommons AI Safety Benchmark v0.5" - MLCommons (2024) - Standardized scoring methodology for AI safety evaluations
Een red-teamevaluatie vindt een ASR van 3% met twee kritieke bevindingen (data-exfiltratie via tool-misbruik) en een ASR van 18% in een ander engagement met uitsluitend laag-severity bevindingen (inconsistente weigeringsberichten). Welk engagement vertegenwoordigt het hoogste risico?