Red-team-metrics voorbij ASR

Gevorderd8 min lezenBijgewerkt op 2026-03-13

Uitgebreide metrics-methodologie voor AI-red-teaming voorbij Attack Success Rate: severity-gewogen scoring, metrics voor verdedigingsdiepte, dekkingsanalyse en rapportageframeworks afgestemd op belanghebbenden.

metrics methodology evaluation reporting

Attack Success Rate (ASR) is de meest gerapporteerde metric in AI-red-teaming, maar hij vertelt een gevaarlijk onvolledig verhaal. Een ASR van 5% kan vijf laag-severity prompt-leaks betekenen of vijf kritieke data-exfiltraties. Volwassen red-teamprogramma's hebben een rijker metrics-framework nodig.

Het metrics-framework

Niveau 1: Metrics voor aanvalsuitkomst

Metric	Definitie	Formule	Use case
ASR (ruw)	Percentage aanvallen dat slaagt	Geslaagde aanvallen / Totaal aantal pogingen	Baseline-vergelijking
Gewogen ASR	ASR gewogen naar aanvalsmoeilijkheid	Som(succes * difficulty_weight) / Som(difficulty_weight)	Normaliseert voor testmoeilijkheid
Categorie-ASR	ASR uitgesplitst per aanvalscategorie	Geslaagd per categorie / totaal per categorie	Identificeert zwakke categorieën
Novel ASR	ASR voor eerder ongeziene aanvalspatronen	Nieuwe successen / Nieuwe pogingen	Meet robuustheid tegen nieuwe aanvallen

Niveau 2: Severity-metrics

Metric	Definitie	Scoring
Risk-Weighted Score	Geaggregeerde score die severity meeneemt	Som(severity_weight * succes)
Critical Failure Rate	Ratio van geslaagde aanvallen met de hoogste severity	Kritieke successen / Totaal aantal pogingen
Harm Potential Index	Geschatte schade in de praktijk als een geslaagde aanval zou worden ingezet	Kwalitatieve schaal: Laag / Gemiddeld / Hoog / Kritiek
Blast Radius	Aantal gebruikers of systemen dat mogelijk wordt getroffen door een geslaagde aanval	Geschat gebruikersaantal of systeemreikwijdte

Severity-wegingsschaal

Severity Level    Weight    Description
─────────────────────────────────────────────────────────
Critical          10        Data exfiltration, code execution,
                            full safety bypass
High               7        Detailed harmful content generation,
                            PII disclosure, tool abuse
Medium             4        Partial safety bypass, system prompt
                            leakage, mild policy violations
Low                2        Minor information disclosure,
                            inconsistent refusal behavior
Informational      1        Behavioral observations, no direct
                            security impact

Metrics voor verdedigingsdiepte

Gelaagde verdedigingen meten

De meeste AI-systemen gebruiken meerdere verdedigingslagen. Metrics moeten vastleggen hoe diep aanvallen doordringen, niet alleen of ze uiteindelijk slagen.

Metric	Wat het meet	Waarom het ertoe doet
Layer Penetration Depth	Hoeveel verdedigingslagen een aanval omzeilt voordat hij wordt gestopt	Een systeem dat aanvallen bij laag 1 stopt is robuuster dan een systeem dat op laag 3 vertrouwt
Defense Bypass Rate (per laag)	Slagingsratio tegen elke individuele verdedigingslaag	Identificeert de zwakste schakel in de verdedigingsketen
Single Point of Failure Index	Of het verwijderen van een enkele verdedigingslaag een kritieke fout zou veroorzaken	Belicht architecturale broosheid
Recovery Rate	Hoe vaak het systeem zichzelf corrigeert na een gedeeltelijke bypass	Meet de veerkracht van defense-in-depth

Verdedigingslaagmodel

Attack → [Input Filter] → [System Prompt] → [Model Safety] → [Output Filter] → Response
              ↓                  ↓                 ↓                ↓
         Layer 1 bypass    Layer 2 bypass    Layer 3 bypass    Layer 4 bypass
              ↓                  ↓                 ↓                ↓
         Track rate        Track rate        Track rate        Track rate

Dekkingsmetrics

Dekking van het aanvalsoppervlak

Dimensie	Hoe te meten	Doel
Categoriedekking	Percentage van de OWASP LLM Top 10-categorieën dat is getest	100% voor uitgebreide beoordelingen
Techniekdekking	Percentage van de bekende aanvalstechnieken dat is geprobeerd	80%+ voor grondige engagementen
Modaliteitsdekking	Geteste invoermodaliteiten (tekst, afbeelding, audio, bestand)	Alle ondersteunde modaliteiten
Taaldekking	Talen die zijn getest op veiligheidsconsistentie	Minimaal de top 10 gebruikerstalen
Contextdekking	Geteste variaties: single-turn, multi-turn, systeemprompt	Alle relevante interactiepatronen

Analyse van dekkingshiaten

# Coverage tracking structure
coverage = {
    "categories_tested": 9,
    "categories_total": 10,  # OWASP LLM Top 10
    "coverage_pct": 90,
    "gaps": ["LLM10: Unbounded Consumption"],
    "techniques_by_category": {
        "LLM01_Prompt_Injection": {
            "tested": ["direct", "indirect", "stored", "multi-turn"],
            "not_tested": ["multi-language", "encoding_based"],
            "coverage_pct": 67
        }
    }
}

Temporele metrics

Volgen in de tijd

Metric	Beschrijving	Alertdrempel
ASR-trend	ASR over opeenvolgende evaluaties	Toename > 5% ten opzichte van baseline
Regressietelling	Eerder verholpen kwetsbaarheden die opnieuw verschijnen	Elke regressie op Kritieke/Hoge bevindingen
Gemiddelde tijd tot fix	Gemiddelde tijd van bevinding tot remediatie	Varieert per severity
Verbeteringsratio van verdediging	Tempo waarin verdedigingslagen verbeteren	Zou positief moeten trenden
Ontdekkingsratio van nieuwe kwetsbaarheden	Nieuwe bevindingen per evaluatiecyclus	Dalende trend verwacht

Regressiedetectie

Onderhoud een regressie-testsuite
Elke bevestigde bevinding moet een regressie-testprompt opleveren. Voeg die toe aan de geautomatiseerde evaluatiesuite.
Voer regressietests uit bij elke wijziging
Modelupdates, wijzigingen in de systeemprompt en aanpassingen aan guardrails moeten regressietests triggeren.
Alerteer bij regressies
Elke eerder verholpen bevinding die opnieuw verschijnt is een regressie. Deze moeten deployment blokkeren.
Volg de regressieratio
Een hoge regressieratio wijst op systemische problemen in het remediatieproces, niet alleen op individuele fixes.

Rapportage afgestemd op belanghebbenden

Metrics per doelgroep

Doelgroep	Metrics die ertoe doen	Presentatieformaat
Engineeringteam	Categorie-ASR, bypass-ratio's per laag, specifieke faalvoorbeelden, regressielijst	Gedetailleerde tabellen, codevoorbeelden, reproductiestappen
Beveiligingsleiding	Risk-weighted score, critical failure rate, dekkingshiaten, trend in de tijd	Dashboard met trendlijnen, heatmaps
Directie / bestuur	Algemene risicohouding (Rood/Geel/Groen), vergelijking met branchebenchmarks, bedrijfsimpact	Samenvatting van één pagina, 3-5 kerncijfers
Compliance / juridisch	Frameworkdekking (OWASP, NIST), mapping naar regelgevingseisen, audit trail	Compliancematrix, bewijspakketten

Het directiedashboard

┌─────────────────────────────────────────────────────┐
│  AI Security Posture — March 2026                    │
│                                                     │
│  Overall Risk:  ██████░░░░  MEDIUM                  │
│                                                     │
│  Critical Findings:  2 (↓ from 5 last quarter)      │
│  Attack Success Rate: 8.3% (↓ from 12.1%)          │
│  Coverage Score:      87% (↑ from 72%)              │
│  Regression Rate:     3% (↓ from 11%)               │
│                                                     │
│  Top Risk: Agent tool abuse (3 critical findings)   │
│  Biggest Improvement: Prompt injection (ASR 4%→1%)  │
└─────────────────────────────────────────────────────┘

Het framework implementeren

Checklist voor metric-verzameling

Datapunt	Wanneer te verzamelen	Opslag
Aanvalsprompt en respons	Elke evaluatiepoging	Result store
Uitspraak en confidence van de judge	Elke evaluatiepoging	Result store
Severity-classificatie	Elke geslaagde aanval	Bevindingendatabase
Penetratie van verdedigingslagen	Indien geïnstrumenteerd	Metadata per poging
Categorie- en techniektags	Elke evaluatiepoging	Promptmetadata
Model- en configversie	Elke evaluatierun	Run-metadata

Gerelateerde onderwerpen

AI-veiligheidsbenchmarks & evaluatie -- benchmarkselectie en evaluatiemethodologie
Evaluatieharnassen bouwen -- infrastructuur voor het verzamelen van metrics
Statistische rigueur in AI-red-teaming -- statistische grondslagen
Executive summary schrijven -- metrics communiceren naar de leiding

Referenties

"Beyond Attack Success Rate: A Comprehensive Evaluation Framework for AI Red Teaming" - Anthropic (2024) - Research on multi-dimensional metrics for AI safety evaluation
"OWASP Top 10 for LLM Applications" - OWASP Foundation (2025) - Vulnerability categories used as coverage dimensions in metrics frameworks
"NIST AI Risk Management Framework (AI RMF 1.0)" - National Institute of Standards and Technology (2023) - Risk measurement functions (Measure subcategories) that inform red team metrics design
"MLCommons AI Safety Benchmark v0.5" - MLCommons (2024) - Standardized scoring methodology for AI safety evaluations

Knowledge Check

Een red-teamevaluatie vindt een ASR van 3% met twee kritieke bevindingen (data-exfiltratie via tool-misbruik) en een ASR van 18% in een ander engagement met uitsluitend laag-severity bevindingen (inconsistente weigeringsberichten). Welk engagement vertegenwoordigt het hoogste risico?

Red-team-metrics voorbij ASR

Gevorderd8 min lezenBijgewerkt op 2026-03-13

metrics methodology evaluation reporting

Het metrics-framework

Niveau 1: Metrics voor aanvalsuitkomst

Metric	Definitie	Formule	Use case
ASR (ruw)	Percentage aanvallen dat slaagt	Geslaagde aanvallen / Totaal aantal pogingen	Baseline-vergelijking
Gewogen ASR	ASR gewogen naar aanvalsmoeilijkheid	Som(succes * difficulty_weight) / Som(difficulty_weight)	Normaliseert voor testmoeilijkheid
Categorie-ASR	ASR uitgesplitst per aanvalscategorie	Geslaagd per categorie / totaal per categorie	Identificeert zwakke categorieën
Novel ASR	ASR voor eerder ongeziene aanvalspatronen	Nieuwe successen / Nieuwe pogingen	Meet robuustheid tegen nieuwe aanvallen

Niveau 2: Severity-metrics

Metric	Definitie	Scoring
Risk-Weighted Score	Geaggregeerde score die severity meeneemt	Som(severity_weight * succes)
Critical Failure Rate	Ratio van geslaagde aanvallen met de hoogste severity	Kritieke successen / Totaal aantal pogingen
Harm Potential Index	Geschatte schade in de praktijk als een geslaagde aanval zou worden ingezet	Kwalitatieve schaal: Laag / Gemiddeld / Hoog / Kritiek
Blast Radius	Aantal gebruikers of systemen dat mogelijk wordt getroffen door een geslaagde aanval	Geschat gebruikersaantal of systeemreikwijdte

Severity-wegingsschaal

Severity Level    Weight    Description
─────────────────────────────────────────────────────────
Critical          10        Data exfiltration, code execution,
                            full safety bypass
High               7        Detailed harmful content generation,
                            PII disclosure, tool abuse
Medium             4        Partial safety bypass, system prompt
                            leakage, mild policy violations
Low                2        Minor information disclosure,
                            inconsistent refusal behavior
Informational      1        Behavioral observations, no direct
                            security impact

Metrics voor verdedigingsdiepte

Gelaagde verdedigingen meten

De meeste AI-systemen gebruiken meerdere verdedigingslagen. Metrics moeten vastleggen hoe diep aanvallen doordringen, niet alleen of ze uiteindelijk slagen.

Metric	Wat het meet	Waarom het ertoe doet
Layer Penetration Depth	Hoeveel verdedigingslagen een aanval omzeilt voordat hij wordt gestopt	Een systeem dat aanvallen bij laag 1 stopt is robuuster dan een systeem dat op laag 3 vertrouwt
Defense Bypass Rate (per laag)	Slagingsratio tegen elke individuele verdedigingslaag	Identificeert de zwakste schakel in de verdedigingsketen
Single Point of Failure Index	Of het verwijderen van een enkele verdedigingslaag een kritieke fout zou veroorzaken	Belicht architecturale broosheid
Recovery Rate	Hoe vaak het systeem zichzelf corrigeert na een gedeeltelijke bypass	Meet de veerkracht van defense-in-depth

Verdedigingslaagmodel

Attack → [Input Filter] → [System Prompt] → [Model Safety] → [Output Filter] → Response
              ↓                  ↓                 ↓                ↓
         Layer 1 bypass    Layer 2 bypass    Layer 3 bypass    Layer 4 bypass
              ↓                  ↓                 ↓                ↓
         Track rate        Track rate        Track rate        Track rate

Dekkingsmetrics

Dekking van het aanvalsoppervlak

Dimensie	Hoe te meten	Doel
Categoriedekking	Percentage van de OWASP LLM Top 10-categorieën dat is getest	100% voor uitgebreide beoordelingen
Techniekdekking	Percentage van de bekende aanvalstechnieken dat is geprobeerd	80%+ voor grondige engagementen
Modaliteitsdekking	Geteste invoermodaliteiten (tekst, afbeelding, audio, bestand)	Alle ondersteunde modaliteiten
Taaldekking	Talen die zijn getest op veiligheidsconsistentie	Minimaal de top 10 gebruikerstalen
Contextdekking	Geteste variaties: single-turn, multi-turn, systeemprompt	Alle relevante interactiepatronen

Analyse van dekkingshiaten

# Coverage tracking structure
coverage = {
    "categories_tested": 9,
    "categories_total": 10,  # OWASP LLM Top 10
    "coverage_pct": 90,
    "gaps": ["LLM10: Unbounded Consumption"],
    "techniques_by_category": {
        "LLM01_Prompt_Injection": {
            "tested": ["direct", "indirect", "stored", "multi-turn"],
            "not_tested": ["multi-language", "encoding_based"],
            "coverage_pct": 67
        }
    }
}

Temporele metrics

Volgen in de tijd

Metric	Beschrijving	Alertdrempel
ASR-trend	ASR over opeenvolgende evaluaties	Toename > 5% ten opzichte van baseline
Regressietelling	Eerder verholpen kwetsbaarheden die opnieuw verschijnen	Elke regressie op Kritieke/Hoge bevindingen
Gemiddelde tijd tot fix	Gemiddelde tijd van bevinding tot remediatie	Varieert per severity
Verbeteringsratio van verdediging	Tempo waarin verdedigingslagen verbeteren	Zou positief moeten trenden
Ontdekkingsratio van nieuwe kwetsbaarheden	Nieuwe bevindingen per evaluatiecyclus	Dalende trend verwacht

Regressiedetectie

Onderhoud een regressie-testsuite
Elke bevestigde bevinding moet een regressie-testprompt opleveren. Voeg die toe aan de geautomatiseerde evaluatiesuite.
Voer regressietests uit bij elke wijziging
Modelupdates, wijzigingen in de systeemprompt en aanpassingen aan guardrails moeten regressietests triggeren.
Alerteer bij regressies
Elke eerder verholpen bevinding die opnieuw verschijnt is een regressie. Deze moeten deployment blokkeren.
Volg de regressieratio
Een hoge regressieratio wijst op systemische problemen in het remediatieproces, niet alleen op individuele fixes.

Rapportage afgestemd op belanghebbenden

Metrics per doelgroep

Doelgroep	Metrics die ertoe doen	Presentatieformaat
Engineeringteam	Categorie-ASR, bypass-ratio's per laag, specifieke faalvoorbeelden, regressielijst	Gedetailleerde tabellen, codevoorbeelden, reproductiestappen
Beveiligingsleiding	Risk-weighted score, critical failure rate, dekkingshiaten, trend in de tijd	Dashboard met trendlijnen, heatmaps
Directie / bestuur	Algemene risicohouding (Rood/Geel/Groen), vergelijking met branchebenchmarks, bedrijfsimpact	Samenvatting van één pagina, 3-5 kerncijfers
Compliance / juridisch	Frameworkdekking (OWASP, NIST), mapping naar regelgevingseisen, audit trail	Compliancematrix, bewijspakketten

Het directiedashboard

┌─────────────────────────────────────────────────────┐
│  AI Security Posture — March 2026                    │
│                                                     │
│  Overall Risk:  ██████░░░░  MEDIUM                  │
│                                                     │
│  Critical Findings:  2 (↓ from 5 last quarter)      │
│  Attack Success Rate: 8.3% (↓ from 12.1%)          │
│  Coverage Score:      87% (↑ from 72%)              │
│  Regression Rate:     3% (↓ from 11%)               │
│                                                     │
│  Top Risk: Agent tool abuse (3 critical findings)   │
│  Biggest Improvement: Prompt injection (ASR 4%→1%)  │
└─────────────────────────────────────────────────────┘

Het framework implementeren

Checklist voor metric-verzameling

Datapunt	Wanneer te verzamelen	Opslag
Aanvalsprompt en respons	Elke evaluatiepoging	Result store
Uitspraak en confidence van de judge	Elke evaluatiepoging	Result store
Severity-classificatie	Elke geslaagde aanval	Bevindingendatabase
Penetratie van verdedigingslagen	Indien geïnstrumenteerd	Metadata per poging
Categorie- en techniektags	Elke evaluatiepoging	Promptmetadata
Model- en configversie	Elke evaluatierun	Run-metadata

Gerelateerde onderwerpen

AI-veiligheidsbenchmarks & evaluatie -- benchmarkselectie en evaluatiemethodologie
Evaluatieharnassen bouwen -- infrastructuur voor het verzamelen van metrics
Statistische rigueur in AI-red-teaming -- statistische grondslagen
Executive summary schrijven -- metrics communiceren naar de leiding

Referenties

"Beyond Attack Success Rate: A Comprehensive Evaluation Framework for AI Red Teaming" - Anthropic (2024) - Research on multi-dimensional metrics for AI safety evaluation
"OWASP Top 10 for LLM Applications" - OWASP Foundation (2025) - Vulnerability categories used as coverage dimensions in metrics frameworks
"NIST AI Risk Management Framework (AI RMF 1.0)" - National Institute of Standards and Technology (2023) - Risk measurement functions (Measure subcategories) that inform red team metrics design
"MLCommons AI Safety Benchmark v0.5" - MLCommons (2024) - Standardized scoring methodology for AI safety evaluations

Knowledge Check

Red-team-metrics voorbij ASR

Onderhoud een regressie-testsuite

Voer regressietests uit bij elke wijziging

Alerteer bij regressies

Volg de regressieratio

Gerelateerde artikelen

Red-team-metrics voorbij ASR

Onderhoud een regressie-testsuite

Voer regressietests uit bij elke wijziging

Alerteer bij regressies

Volg de regressieratio

Gerelateerde artikelen