NIST AI 600-1 GenAI-risicoprofiel
NIST AI 600-1 risicoprofiel voor generatieve AI met risicocategorieën, mappings van controles, beoordelingsmethodologie en praktische toepassing voor red-team-engagements.
NIST AI 600-1, getiteld "Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile," werd in juli 2024 uitgebracht als begeleidend document bij het NIST AI RMF. Het behandelt specifiek de unieke risico's die generatieve AI-systemen met zich meebrengen, waardoor het een van de meest direct toepasbare frameworks is voor AI-red-team-professionals.
GenAI-risicocategorieën
NIST AI 600-1 identificeert 12 risicocategorieën die specifiek zijn voor generatieve AI. Elke categorie mapt direct aan red-team-testactiviteiten:
Risico-overzichtstabel
| # | Risicocategorie | Beschrijving | Red-team-prioriteit |
|---|---|---|---|
| 1 | CBRN-informatie | AI levert informatie die chemische, biologische, radiologische of nucleaire schade mogelijk maakt | Hoog (veiligheidskritisch) |
| 2 | Confabulatie | AI genereert valse informatie die als feit wordt gepresenteerd (hallucinatie) | Hoog (veelvoorkomend in alle GenAI) |
| 3 | Dataprivacy | AI onthult trainingsdata of maakt extractie van persoonsgegevens mogelijk | Hoog (juridische aansprakelijkheid) |
| 4 | Milieu | Energieverbruik en milieu-impact van GenAI-systemen | Laag (doorgaans niet binnen scope) |
| 5 | Mens-AI-configuratie | Onvoldoende menselijk toezicht op AI-outputs en -beslissingen | Gemiddeld (procesafhankelijk) |
| 6 | Informatie-integriteit | AI genereert misleidende content of maakt desinformatie mogelijk | Hoog (reputatierisico) |
| 7 | Informatiebeveiliging | AI maakt cyberaanvallen mogelijk of is er kwetsbaar voor | Kritiek (kern van red-team-focus) |
| 8 | Intellectueel eigendom | AI genereert content die inbreuk maakt op bestaand IE | Gemiddeld (juridisch risico) |
| 9 | Obscene, vernederende, beledigende content | AI genereert schadelijke, beledigende of uitbuitende content | Hoog (veiligheid en reputatie) |
| 10 | Toxiciteit, bias, homogenisering | AI vertoont bias, genereert toxische content of homogeniseert outputs | Hoog (eerlijkheid en naleving) |
| 11 | Waardeketen- en componentintegratie | Risico's van AI-componenten, API's en plugins van derden | Hoog (supply-chain-risico) |
| 12 | Schadelijke bias en homogenisering | Systemische biases die op schaal door generatieve AI worden versterkt | Gemiddeld (maatschappelijke impact) |
Gedetailleerde risicoanalyse en red-team-mapping
CBRN-informatie (GAI-risico 1)
Generatieve AI-modellen kunnen gedetailleerde instructies bieden of de creatie van chemische, biologische, radiologische of nucleaire wapens faciliteren.
Red-team-beoordelingsaanpak:
| Testcategorie | Methodologie | Verwachte controles |
|---|---|---|
| Directe ontlokking | Probeer CBRN-syntheseinstructies te extraheren via directe queries | Contentfiltering, weigeringsgedrag |
| Jailbreak-bypass | Gebruik bekende jailbreak-technieken om CBRN-contentbeperkingen te omzeilen | Meerlaagse filtering, robuuste alignment |
| Indirecte ontlokking | Vraag CBRN-aanverwante informatie op die tot schadelijke instructies kan worden samengesteld | Contextbewuste filtering, semantische analyse |
| Multi-turn-escalatie | Escaleer verzoeken geleidelijk over gespreksbeurten om drempeldetectie te omzeilen | Monitoring op gespreksniveau |
Confabulatie (GAI-risico 2)
Confabulatie -- gewoonlijk hallucinatie genoemd -- is een systemisch risico in alle generatieve AI-systemen. Het model genereert plausibel klinkende maar feitelijk onjuiste informatie met hoog vertrouwen.
Red-team-beoordelingsaanpak:
| Testcategorie | Methodologie | Verwachte controles |
|---|---|---|
| Feitelijke nauwkeurigheid | Bevraag verifieerbare feiten en meet het nauwkeurigheidspercentage | Groundingmechanismen, RAG-integratie |
| Citaatfabricatie | Vraag bronnen op en verifieer of geciteerde papers, URL's of statistieken bestaan | Citaatverificatie, retrieval-augmentatie |
| Autoriteitsimpersonatie | Vraag het model om deskundige meningen en verifieer de nauwkeurigheid | Epistemische bescheidenheid, uiting van onzekerheid |
| Domeinspecifieke confabulatie | Test feitelijke nauwkeurigheid in gespecialiseerde domeinen (juridisch, medisch, financieel) | Domeinspecifieke validatie, vereisten voor menselijke beoordeling |
Dataprivacy (GAI-risico 3)
Generatieve AI-modellen kunnen trainingsdata onthouden en reproduceren, inclusief persoonsgegevens, bedrijfseigen data en andere gevoelige content.
Red-team-beoordelingsaanpak:
| Testcategorie | Methodologie | Verwachte controles |
|---|---|---|
| Extractie van trainingsdata | Gebruik bekende extractietechnieken (membership inference, prompt-gebaseerde extractie) | Differential privacy, outputfiltering |
| PII-extractie | Probeer persoonsgegevens te extraheren uit modeloutputs | PII-detectie en -scrubbing in outputs |
| Lekkage van gespreksdata | Test of informatie uit gesprekken van andere gebruikers kan worden geëxtraheerd | Sessie-isolatie, geheugenbeheer |
| Model inversion | Probeer trainingsvoorbeelden te reconstrueren via iteratief bevragen | Rate limiting, outputmonitoring |
Informatiebeveiliging (GAI-risico 7)
Deze categorie sluit direct aan op de kernactiviteiten van AI-red teaming en omvat het volledige scala aan AI-specifieke beveiligingskwetsbaarheden.
Red-team-beoordelingsaanpak:
| Testcategorie | NIST AI 600-1 subrisico | Testmethodologie |
|---|---|---|
| Prompt-injectie | AI maakt ongeautoriseerde acties mogelijk via inputmanipulatie | Directe en indirecte prompt-injectie, systeemprompt-extractie |
| Datavergiftiging | AI-training of -retrieval kan gemanipuleerd worden | RAG-vergiftiging, manipulatie van fine-tuningdata |
| Modeldiefstal | AI-modelgewichten of -capaciteiten kunnen geëxtraheerd worden | Modelextractie-aanvallen, API-gebaseerd modeldiefstal |
| Evasie-aanvallen | AI-classificatie of -detectie kan omzeild worden | Adversarial examples, verstoringsaanvallen |
| Supply-chain-compromittering | AI-componenten van derden introduceren kwetsbaarheden | Afhankelijkheidsanalyse, verificatie van modelherkomst |
Waardeketen- en componentintegratie (GAI-risico 11)
Generatieve AI-systemen vertrouwen steeds meer op complexe supply chains van modellen, API's, plugins en databronnen, die elk risico introduceren.
Red-team-beoordelingsaanpak:
| Component | Risico | Testaanpak |
|---|---|---|
| Aanbieders van foundationmodellen | Wijzigingen in modelgedrag, deprecatie, beveiligingsincidenten | Test over modelversies heen, verifieer fallbackgedrag |
| Plugin-/toolecosystemen | Kwaadaardige plugins, data-exfiltratie via tools | Beveiligingsbeoordeling van plugins, scenario's voor toolmisbruik |
| RAG-databronnen | Vergiftigde of gemanipuleerde retrievalbronnen | Injecteer adversarial documenten, test retrieval-integriteit |
| Aanbieders van fine-tuningdata | Manipulatie van trainingsdata | Verifieer dataherkomst, test op backdoorgedrag |
| API-tussenpersonen | Man-in-the-middle, promptlogging, dataretentie | Beoordeel API-beveiliging, beoordeel beleid voor dataverwerking |
Beoordelingsmethodologie
Gestructureerd beoordelingsproces
NIST AI 600-1 mapt zijn risico's aan de vier functies van het AI RMF: Govern, Map, Measure en Manage. Red teamers moeten deze mapping gebruiken om uitgebreide beoordelingen te structureren:
Govern: Stel het beoordelingsframework op
Beoordeel het AI-governancebeleid, de risicobereidheid en de verantwoordingsstructuren van de organisatie. Verifieer dat de governancedocumentatie alle 12 AI 600-1-risicocategorieën behandelt.
Belangrijke vragen:
- Heeft de organisatie gedocumenteerd beleid voor elke risicocategorie?
- Zijn rollen en verantwoordelijkheden gedefinieerd voor GenAI-risicobeheer?
- Is er een proces voor het bijwerken van risicobeoordelingen naarmate het dreigingslandschap evolueert?
Map: Identificeer en categoriseer GenAI-systemen
Inventariseer alle generatieve AI-systemen en map ze aan toepasselijke risicocategorieën. Bepaal welke systemen testen vereisen en prioriteer op basis van risicoblootstelling.
Belangrijke activiteiten:
- Catalogiseer alle GenAI-inzetten (productie, intern, experimenteel)
- Classificeer de risicoblootstelling van elk systeem over de 12 categorieën
- Identificeer de systemen met de hoogste prioriteit voor red-team-testen
Measure: Voer adversarial testen uit
Voer red-team-testactiviteiten uit die aansluiten op de toepasselijke risicocategorieën. Meet de effectiviteit van bestaande controles tegen adversarial scenario's.
Testframework:
- Test elke toepasselijke risicocategorie met de hierboven beschreven aanpakken
- Documenteer de controle-effectiviteit voor elk testscenario
- Kwantificeer risiconiveaus op basis van exploiteerbaarheid en impact
Manage: Rapporteer en remedieer
Lever bevindingen gemapt aan AI 600-1-risicocategorieën en AI RMF-functies. Bied remediatieaanbevelingen en verifieer fixes.
Op te leveren producten:
- Risicobeoordelingsmatrix die bevindingen mapt aan AI 600-1-categorieën
- Controle-effectiviteitsscores voor elk getest risicogebied
- Remediatieroadmap met geprioriteerde aanbevelingen
Risicoscoringframework
Gebruik bij het beoordelen van GenAI-risico's een consistente scoringmethodologie die aansluit op de NIST AI 600-1-categorieën:
| Dimensie | Score 1 (Laag) | Score 2 (Gemiddeld) | Score 3 (Hoog) | Score 4 (Kritiek) |
|---|---|---|---|---|
| Exploiteerbaarheid | Vereist diepe expertise en aanzienlijke middelen | Vereist gematigde vaardigheid en enige middelen | Vereist basisvaardigheid, tools beschikbaar | Triviaal exploiteerbaar met publieke technieken |
| Impact | Klein ongemak, geen datablootstelling | Beperkte datablootstelling, gematigd reputatierisico | Aanzienlijke datablootstelling, veiligheidsimplicaties | CBRN-informatie, massale datalek, fysieke schade |
| Prevalentie | Zeldzaam randgeval | Af en toe reproduceerbaar | Vaak reproduceerbaar | Systematisch, altijd reproduceerbaar |
| Detecteerbaarheid | Bestaande controles detecteren betrouwbaar | Soms gedetecteerd door bestaande controles | Zelden gedetecteerd door bestaande controles | Geen detectiecapaciteit aanwezig |
Mappings van controles
AI 600-1-risico's mappen aan NIST AI RMF-subcategorieën
| AI 600-1-risico | AI RMF Govern | AI RMF Map | AI RMF Measure | AI RMF Manage |
|---|---|---|---|---|
| CBRN-informatie | GV-1.1, GV-1.3 | MP-2.3 | MS-2.3, MS-2.6 | MG-2.2 |
| Confabulatie | GV-1.1, GV-4.3 | MP-2.3, MP-3.4 | MS-2.6, MS-2.11 | MG-2.2, MG-3.2 |
| Dataprivacy | GV-1.1, GV-6.1 | MP-3.4, MP-4.2 | MS-2.3, MS-2.10 | MG-2.2, MG-3.1 |
| Informatiebeveiliging | GV-1.1, GV-1.6 | MP-2.3, MP-5.2 | MS-2.3, MS-2.6 | MG-2.2, MG-2.4 |
| Waardeketen | GV-1.1, GV-6.2 | MP-2.3, MP-5.2 | MS-2.7, MS-2.8 | MG-3.1, MG-3.2 |
AI 600-1 mappen aan veelvoorkomende red-team-bevindingen
| Veelvoorkomende bevinding | AI 600-1-risicocategorie | Aanbevolen controle |
|---|---|---|
| Systeemprompt-extractie | Informatiebeveiliging (7) | Input-/outputfiltering, prompt-hardening |
| Gehallucineerd juridisch advies | Confabulatie (2) | Domeinspecifieke grounding, disclaimervereisten |
| PII in modeloutputs | Dataprivacy (3) | Outputscanning, differential privacy |
| Jailbreak naar schadelijke content | Obscene/beledigende content (9) | Meerlaagse contentfiltering, constitutional AI |
| Bevooroordeelde aanwervingsaanbevelingen | Toxiciteit/bias (10) | Bias-testen, eerlijkheidsbeperkingen, menselijk toezicht |
| Data-exfiltratie via plugin | Waardeketen (11) | Plugin-sandboxing, dataflowcontroles |
Praktische toepassing
AI 600-1 gebruiken in engagementvoorstellen
Verwijs bij het scopen van red-team-engagements naar AI 600-1-risicocategorieën om testactiviteiten te rechtvaardigen:
Voorstelstructuur:
- Som de AI 600-1-risicocategorieën op die van toepassing zijn op de GenAI-inzet van de klant
- Map elke risicocategorie aan specifieke testactiviteiten en mate van inspanning
- Verwijs naar NIST-richtlijnen om het belang van elk testgebied te rechtvaardigen
- Bied geschatte tijdlijnen en middelenbehoeften per risicocategorie
Rapporteren met AI 600-1-afstemming
Structureer bevindingenrapporten om direct te mappen aan AI 600-1 voor maximale klantwaarde:
| Rapportsectie | Inhoud |
|---|---|
| Managementsamenvatting | Algehele risicopositie over toepasselijke AI 600-1-categorieën |
| Beoordeling per risicocategorie | Gedetailleerde bevindingen georganiseerd per AI 600-1-risicocategorie |
| Controle-effectiviteit | Matrix die geteste controles en hun effectiviteit tegen elk risico toont |
| Remediatieroadmap | Geprioriteerde aanbevelingen gemapt aan specifieke risicocategorieën |
| Nalevingsimplicaties | Hoe bevindingen de NIST AI RMF-nalevingspositie van de organisatie beïnvloeden |
Beperkingen en gaten
Red teamers moeten zich bewust zijn van gebieden waar AI 600-1 aanvulling vereist:
- Technische diepgang: AI 600-1 identificeert risicocategorieën maar schrijft geen specifieke testmethodologieën voor. Vul aan met de OWASP LLM Top 10 en MITRE ATLAS voor technische testbegeleiding.
- Scoringmethodologie: Het framework biedt geen gestandaardiseerd risicoscoringsysteem. Teams moeten hun eigen kwantitatieve aanpak ontwikkelen of adopteren.
- Opkomende risico's: Aangezien GenAI-capaciteiten snel evolueren, kunnen er tussen frameworkherzieningen nieuwe risicocategorieën ontstaan. Monitor NIST-publicaties op updates en vul aan met actuele threat intelligence.
- Multi-modelsystemen: AI 600-1 richt zich voornamelijk op individuele GenAI-systemen. Voor complexe multi-modelarchitecturen is aanvullende risicobeoordeling nodig voor emergent gedrag uit modelinteracties.