NIST AI RMF & ISO 42001
NIST AI Risk Management Framework en de ISO 42001 AI-managementsysteemstandaard. Hoe red teaming past in organisatorisch AI-risicobeheer en nalevingstesten.
Risicobeheerframeworks bieden de organisatorische context voor AI-red teaming. Terwijl OWASP en MITRE ATLAS je vertellen wat je moet testen, vertellen NIST AI RMF en ISO 42001 je waarom testen ertoe doet binnen de risicopositie van een organisatie en hoe bevindingen tot actie moeten leiden.
NIST AI RMF: structuur en functies
De vier kernfuncties
┌──────────────────────────────────────────────────────┐
│ GOVERN │
│ Policies, roles, accountability, organizational │
│ culture for AI risk management │
│ ┌────────────────────────────────────────────┐ │
│ │ MAP │ │
│ │ Context, risk identification, │ │
│ │ stakeholder analysis │ │
│ │ ┌──────────────┐ ┌──────────────┐ │ │
│ │ │ MEASURE │ │ MANAGE │ │ │
│ │ │ Assessment, │ │ Mitigation, │ │ │
│ │ │ analysis, │ │ monitoring, │ │ │
│ │ │ tracking │ │ response │ │ │
│ │ └──────────────┘ └──────────────┘ │ │
│ └────────────────────────────────────────────┘ │
└──────────────────────────────────────────────────────┘Functiedetails en relevantie voor red team
| Functie | Categorieën | Relevantie voor red team |
|---|---|---|
| Govern | Beleid, verantwoording, cultuur, naleving | Opzet van red-team-programma, budget, rapportagelijnen |
| Map | Context, risico-identificatie, stakeholders | Dreigingsmodellering, analyse van aanvalsoppervlak, scopedefinitie |
| Measure | Beoordeling, metrieken, tracking | Testuitvoering, metriekverzameling, benchmarking |
| Manage | Mitigatie, monitoring, respons | Remediatievalidatie, regressietesten, continue beoordeling |
Red teaming binnen het NIST AI RMF
Govern-functie: het red-team-programma opzetten
De Govern-functie creëert de organisatorische basis voor red teaming:
| Govern-subcategorie | Hoe red teaming past |
|---|---|
| GV-1: Beleid en procedures | Definieer beleid, frequentie en scopevereisten voor red-team-testen |
| GV-2: Verantwoording | Wijs eigenaarschap toe voor de remediatie van red-team-bevindingen |
| GV-3: Personeel | Zorg dat red-team-vaardigheden (intern of leverancier) beschikbaar zijn |
| GV-4: Organisatiecultuur | Bevorder een cultuur waarin red-team-bevindingen tot verbetering leiden, niet tot verwijten |
| GV-5: Naleving | Stem red-team-testen af op regelgevingsvereisten (EU AI Act, enz.) |
Map-functie: het engagement scopen
| Map-subcategorie | Red-team-toepassing |
|---|---|
| MP-1: Context en beoogd gebruik | Begrijp het doel van het AI-systeem om relevante aanvallen te ontwerpen |
| MP-2: Risico-identificatie | Identificeer welke risico's red teaming moet aanpakken |
| MP-3: Stakeholderanalyse | Bepaal wie red-team-resultaten nodig heeft en in welk formaat |
| MP-4: Impact | Beoordeel de potentiële impact van geïdentificeerde kwetsbaarheden |
Measure-functie: uitvoeren en evalueren
| Measure-subcategorie | Red-team-toepassing |
|---|---|
| MS-1: Beoordelingsaanpakken | Red teaming als primaire beoordelingsmethode |
| MS-2: Evaluatiemetrieken | Aanvalsslagingspercentage, severityscores, dekkingsmetrieken |
| MS-3: Tracking in de tijd | Regressietesten, trendanalyse over engagements heen |
Manage-functie: handelen naar bevindingen
| Manage-subcategorie | Red-team-toepassing |
|---|---|
| MG-1: Risicobehandeling | Prioriteer en remedieer red-team-bevindingen |
| MG-2: Monitoring | Continu geautomatiseerd red teaming (CART) voor doorlopende assurance |
| MG-3: Respons | Incidentrespons getriggerd door red-team-ontdekkingen |
| MG-4: Restrisico | Accepteer, draag over of mitigeer resterende risico's verder |
NIST AI 600-1: GenAI-profiel
NIST AI 600-1 breidt het AI RMF specifiek uit voor generatieve AI-systemen. Gepubliceerd in juli 2024, identificeert het twaalf risicocategorieën die bijzonder relevant zijn voor GenAI en mapt het elk aan de Govern/Map/Measure/Manage-structuur van het AI RMF.
| Risicocategorie | Beschrijving | Red-team-testfocus |
|---|---|---|
| CBRN-informatie | AI die gevaarlijke CBRN-kennis genereert | Veiligheidsfiltertesten voor CBRN-content |
| Confabulatie | Valse maar plausibele outputs genereren | Meting van hallucinatiepercentage |
| Dataprivacy | Lekken van trainingsdata of PII | Extractie van trainingsdata, membership inference |
| Milieu | Excessief middelenverbruik | Resource-uitputtingsaanvallen |
| Mens-AI-configuratie | Patronen van overmatige afhankelijkheid of misbruik | Testen van gebruikersinteractie |
| Informatie-integriteit | Desinformatie genereren | Evaluatie van feitelijke nauwkeurigheid |
| Informatiebeveiliging | Traditionele en AI-specifieke beveiligingsrisico's | Uitgebreid red teaming |
| Intellectueel eigendom | Auteursrechtelijk beschermde content genereren | Testen van reproductie van auteursrechtelijk materiaal |
| Obscene content | Schadelijke of beledigende content genereren | Testen van bypass van veiligheidsfilter |
| Toxiciteit | Toxische, bevooroordeelde of haatdragende content genereren | Evaluatie van bias en toxiciteit |
| Waarde-alignment | Misalignment met menselijke waarden | Alignment-testen, jailbreaken |
| Homogenisering | Verminderde diversiteit door AI-monocultuur | Beoordeling van systemisch risico |
Mapping van NIST AI 600-1 aan de OWASP LLM Top 10
| NIST AI 600-1-risico | OWASP LLM-categorie | Testprioriteit |
|---|---|---|
| CBRN-informatie | LLM01 (Prompt Injection om veiligheidsfilters te omzeilen) | Kritiek voor frontiermodellen |
| Confabulatie | LLM09 (Misinformation) | Hoog voor informatiekritische applicaties |
| Dataprivacy | LLM02 (Sensitive Information Disclosure) | Kritiek voor PII-verwerkende systemen |
| Informatiebeveiliging | LLM01-LLM10 (uitgebreid) | Altijd kritiek |
| Intellectueel eigendom | LLM02 (Sensitive Information Disclosure) | Hoog voor creatieve applicaties |
| Obscene content | LLM01 (Prompt Injection om contentfilters te omzeilen) | Hoog voor consumentgerichte systemen |
| Waarde-alignment | LLM01 (Prompt Injection / Jailbreaking) | Hoog voor alle LLM-applicaties |
Red-team-testen per NIST AI 600-1-categorie
Voor elke NIST AI 600-1-risicocategorie mappen specifieke red-team-tests aan de Measure-functie:
| Risicocategorie | Specifieke testgevallen | Measure-subcategorie |
|---|---|---|
| CBRN-informatie | Probeer syntheseinstructies, wapenontwerp, creatie van biologische agentia te ontlokken | MS-1 (Beoordeling) |
| Confabulatie | Bevraag domeinspecifieke feiten, controleer citaatnauwkeurigheid, test onder adversarial omstandigheden | MS-2 (Metrieken) |
| Dataprivacy | Extractie van trainingsdata, PII-probing, membership inference, cross-sessie-lekkage | MS-1, MS-2 |
| Informatiebeveiliging | Prompt-injectie, systeemprompt-extractie, toolmisbruik, data-exfiltratie | MS-1, MS-2, MS-3 |
| Obscene content | Bypass van veiligheidsfilter via encoding, meertaligheid, role-play en multi-turn-aanvallen | MS-1 |
| Waarde-alignment | Jailbreak-testen, alignment-stabiliteit onder adversarial druk | MS-1, MS-3 |
ISO 42001: AI-managementsysteem
ISO 42001 biedt een certificeerbare managementsysteemstandaard voor AI. Het volgt de ISO Annex SL-structuur (vergelijkbaar met ISO 27001 voor informatiebeveiliging). Gepubliceerd in december 2023, is het de eerste internationale standaard voor AI-managementsystemen en wordt het steeds vaker genoemd in inkoopvereisten en regelgevingsrichtlijnen.
Belangrijke clausules
| Clausule | Onderwerp | Relevantie voor red team |
|---|---|---|
| 4 | Context van de organisatie | Het AI-systeemlandschap begrijpen |
| 5 | Leiderschap | Betrokkenheid van het management bij AI-veiligheidstesten |
| 6 | Planning | Risicobeoordeling inclusief adversarial testen |
| 7 | Ondersteuning | Middelen voor testen (mensen, tools, budget) |
| 8 | Uitvoering | Operationele planning en beheersing van AI-systemen |
| 9 | Prestatie-evaluatie | Meting en monitoring (inclusief red-team-resultaten) |
| 10 | Verbetering | Afhandeling van afwijkingen, continue verbetering |
ISO 42001 Bijlage A-controles
Bijlage A biedt specifieke controles. De controles die het meest relevant zijn voor red teaming:
| Controle | Beschrijving | Verband met red team |
|---|---|---|
| A.6.2.6 | Verificatie en validatie van AI-systemen | Red teaming als validatiemethode |
| A.6.2.7 | Risicobeoordeling van AI-systemen | Red-team-bevindingen als risicobewijs |
| A.8.4 | Exploitatie en monitoring van AI-systemen | CART en continue monitoring |
| A.9.3 | Relaties met derden en klanten | Red-team-vereisten voor leveranciers |
| A.10.3 | Impactbeoordeling van AI-systemen | Red-team-impactanalyse |
ISO 42001 Bijlage B: implementatierichtlijnen
Bijlage B biedt implementatierichtlijnen voor elke controle uit Bijlage A. Voor red teamers omvatten de meest relevante richtlijnen:
| Richtlijngebied | Wat het aanbeveelt | Hoe red teaming ondersteunt |
|---|---|---|
| B.6.2.6 | Verificatie moet testen tegen vereisten omvatten | Red-team-bevindingen verifiëren dat aan beveiligingsvereisten wordt voldaan |
| B.6.2.7 | Risicobeoordeling moet adversarial dreigingen overwegen | Op MITRE ATLAS gebaseerde dreigingsmodellering voedt de risicobeoordeling |
| B.8.4 | Monitoring moet afwijkend gedrag detecteren | Red-team-oefeningen valideren monitoring- en alerteringscapaciteiten |
| B.10.3 | Impactbeoordeling moet doorlopend zijn | Een regelmatige red-team-cadans biedt continue beoordeling |
ISO 42001-certificering en red teaming
Tijdens een ISO 42001-certificeringsaudit zoeken auditors naar bewijs dat AI-risico's zijn geïdentificeerd en beheerd. Red-team-rapporten dienen als sterk bewijs voor:
| Benodigd auditbewijs | Op te leveren red-team-product |
|---|---|
| Risico-identificatie (Clausule 6.1) | Dreigingsmodel met aan ATLAS gemapte risico's |
| Risicobehandeling (Clausule 6.1) | Remediatievalidatie die aantoont dat risico's gemitigeerd zijn |
| Prestatie-evaluatie (Clausule 9.1) | Testmetrieken, severityverdelingen, trendanalyse |
| Afhandeling van afwijkingen (Clausule 10.1) | Bevindingen gemapt aan specifieke controlefalen met remediatiebewijs |
| Continue verbetering (Clausule 10.2) | Jaar-op-jaar-vergelijking van red-team-bevindingen |
NIST AI RMF vs. ISO 42001
| Dimensie | NIST AI RMF | ISO 42001 |
|---|---|---|
| Type | Vrijwillig framework | Certificeerbare standaard |
| Structuur | Vier functies, categorieën, subcategorieën | Clausules + controles uit Bijlage A |
| Certificering | Geen formele certificering | Auditeerbaar door derden |
| Geografische focus | VS-oorsprong, wereldwijd gerefereerd | Internationaal (ISO) |
| Specificiteit | Principegebaseerd, flexibel | Vereistengebaseerd, voorschrijvend |
| Implementatiekosten | Lager (geen audit vereist) | Hoger (certificeringsaudit vereist) |
| Markterkenning | Sterk in de VS, wereldwijd groeiend | Groeiend, vooral in EU/APAC |
Begin met het NIST AI RMF
Gebruik het RMF om je AI-risicobeheeraanpak op te zetten. De flexibiliteit ervan maakt aanpassing aan het volwassenheidsniveau van je organisatie mogelijk.
Voeg ISO 42001 toe voor certificering
Als certificering vereist is (vaak voor enterprise of gereguleerde sectoren), implementeer dan ISO 42001-controles bovenop je RMF-gebaseerde programma.
Integreer red teaming in beide
Positioneer red teaming als een primaire Measure-functie (NIST) en verificatie-/validatiemethode (ISO 42001). Map bevindingen aan beide frameworks.
Praktische toepassing: red-team-programma's structureren
Een red-team-programma opbouwen rond het NIST AI RMF
Voor organisaties die het NIST AI RMF adopteren, is dit hoe je een red-team-programma structureert dat direct mapt aan de functies van het framework:
| Fase | RMF-functie | Activiteiten | Op te leveren producten |
|---|---|---|---|
| Programma-opzet | Govern | Definieer red-team-charter, budget, rapportagelijnen, testbeleid en escalatieprocedures | Red-team-beleidsdocument, RACI-matrix |
| Engagement-scoping | Map | Identificeer AI-systemen, classificeer risico's, definieer aanvalsoppervlak, stakeholderanalyse | Dreigingsmodel, scopedocument, rules of engagement |
| Testuitvoering | Measure | Voer adversarial testen uit, verzamel metrieken, benchmark prestaties | Testlogs, bevindingenrapporten, severityscores |
| Remediatie-tracking | Manage | Volg remediatie, valideer fixes, monitor op regressie, accepteer restrisico | Remediatietracker, hertestrapporten, risico-acceptatieregistraties |
| Programmabeoordeling | Govern + Manage | Jaarlijkse programmabeoordeling, metrische trends, budgetrechtvaardiging | Jaarrapport, metriekdashboard, verbeterplan |
Metrieken voor AI-red-team-programma's
De Measure-functie vereist kwantificeerbare metrieken. Deze metrieken helpen organisaties hun AI-beveiligingspositie in de loop van de tijd te volgen:
| Metriek | Wat het meet | Doelrichting |
|---|---|---|
| Severityverdeling van bevindingen | Aandeel kritieke/hoge/gemiddelde/lage bevindingen | In de loop van de tijd naar lagere severity verschuiven |
| Gemiddelde tijd tot remediatie (MTTR) | Hoe snel bevindingen worden opgelost | In de loop van de tijd afnemen |
| Dekkingsscore | Percentage ATLAS-technieken getest per engagement | Boven 80% houden voor relevante technieken |
| Regressiepercentage | Percentage eerder opgeloste bevindingen dat opnieuw verschijnt | Onder 5% houden |
| Jailbreak-slagingspercentage | Percentage jailbreak-pogingen dat slaagt | In de loop van de tijd afnemen |
| Data-extractie-slagingspercentage | Percentage extractiepogingen dat gevoelige data oplevert | Tot nul afnemen |
Bevindingen vertalen naar risicobeheertaal
Technische red-team-bevindingen moeten worden vertaald naar risicobeheertaal voor organisatorische stakeholders. Gebruik deze structuur:
Technical Finding: System prompt extractable via role-play technique
Risk Statement: There is a [MEDIUM] likelihood that an adversary
will extract the AI system's internal instructions, revealing
business logic and security control configurations that enable
more sophisticated follow-up attacks.
NIST AI RMF Mapping:
- Map: MP-2 (Risk identification) -- system prompt exposure
was not identified as a risk in the system's risk register
- Measure: MS-1 (Assessment) -- current security controls do
not prevent instruction extraction
- Manage: MG-1 (Risk treatment) -- implement output filtering
for instruction-like content, add to monitoring
Remediation Owner: AI Platform Team
Acceptance Authority: CISO (if risk is accepted)Gerelateerde onderwerpen
- Overzicht van AI-beveiligingsframeworks -- hoe risicobeheerframeworks passen in het bredere landschap
- EU AI Act Compliance Testing -- regelgevingsframework dat naar het NIST AI RMF verwijst
- Cross-Framework Mapping Reference -- mapping van NIST en ISO aan OWASP en ATLAS
- Insurance & Compliance Requirements -- nalevingscertificeringen inclusief ISO 42001
References
- "Artificial Intelligence Risk Management Framework (AI RMF 1.0)" - National Institute of Standards and Technology (2023) - The complete NIST AI RMF with Govern, Map, Measure, and Manage functions
- "NIST AI RMF Playbook" - National Institute of Standards and Technology (2023) - Companion guidance with suggested actions for implementing each AI RMF subcategory
- "ISO/IEC 42001:2023 Artificial Intelligence Management System" - International Organization for Standardization (2023) - Certifiable AI management system standard complementing NIST AI RMF
- "NIST AI 600-1: Generative AI Profile" - National Institute of Standards and Technology (2024) - Supplementary profile mapping generative AI risks to the AI RMF structure
- "Crosswalk: NIST AI RMF to ISO/IEC 42001" - National Institute of Standards and Technology (2024) - Official mapping between NIST and ISO AI governance standards
In welke NIST AI RMF-functie hoort de uitvoering van AI-red teaming primair thuis?