Incident Response-playbook voor modelcompromittering
Playbook voor het reageren op een gecompromitteerd AI-model: isolatieprocedures, vervangingsstrategieën, onderzoek van de toeleveringsketen, overwegingen voor hertraining en integriteitsherstel.
Incident Response-playbook voor modelcompromittering
Dit playbook behandelt incidenten waarbij het AI-model zelf -- zijn gewichten, adapters, tokenizer of trainingspipeline -- is gecompromitteerd. Modelcompromittering behoort tot de meest ernstige AI-incidenten, omdat het model het kerncomponent is dat wordt vertrouwd om veilige, nauwkeurige uitvoer te produceren. Een gecompromitteerd model kan elke gebruiker en elke conversatie treffen totdat het wordt vervangen.
Triggercriteria
Activeer dit playbook wanneer:
- Gedragsanalyse modelveranderingen toont die niet worden verklaard door configuratie in de applicatielaag
- Integriteitscontroles van bestanden ongeautoriseerde wijzigingen aan modelartefacten onthullen
- Een toeleveringsketen-alert wijst op compromittering van een modelaanbieder, hostingplatform of distributiekanaal
- Backdoor-gedrag wordt gedetecteerd via triggerscanning of activatieanalyse
- Een onderzoek naar de herkomst van een model van derden manipulatie onthult
Onmiddellijke acties (eerste 30 minuten)
Bevestig en wijs toe met een uitgebreid team
Modelcompromittering vereist doorgaans een breder responsteam dan andere AI-incidenten:
Incident ID: AI-IR-[YYYY]-[NNNN] Type: Model Compromise Detected: [UTC timestamp] IC: [Name] AI Investigator: [Name] ← ML engineer with model internals expertise Infrastructure Lead: [Name] ← For deployment and isolation Supply Chain Investigator: [Name] ← For provenance investigation Evidence Custodian: [Name]Bewaar het gecompromitteerde model
Voordat je isoleert of vervangt, bewaar het gecompromitteerde model als bewijs:
- Maak een snapshot van alle modelgewichtsbestanden met SHA-256-checksums
- Leg alle adapterbestanden vast (LoRA, QLoRA)
- Leg tokenizerbestanden en configuratie vast
- Registreer de model-serving-configuratie (kwantisatie, batching, enz.)
- Leg het deployment-manifest vast dat toont wanneer deze modelversie is gedeployed
- Registreer de herkomst van het model: waar het is verkregen, wanneer, door wie
- Bewaar fine-tuning-logs en verwijzingen naar trainingsdata indien van toepassing
- Bewaar alles in geïsoleerde, alleen-lezen bewijsopslag
# Preserve model artifacts EVIDENCE_DIR="/evidence/AI-IR-$(date +%Y)-NNNN/model" mkdir -p "$EVIDENCE_DIR" # Copy model files with integrity verification cp -r /models/production/current/* "$EVIDENCE_DIR/" sha256sum "$EVIDENCE_DIR"/* > "$EVIDENCE_DIR/checksums.sha256" # Record deployment state kubectl get deployment model-service -o yaml > "$EVIDENCE_DIR/deployment.yaml" kubectl describe pod -l app=model-service > "$EVIDENCE_DIR/pod_describe.txt"Isoleer het gecompromitteerde model
Verwijder het gecompromitteerde model uit productie terwijl je de service waar mogelijk in stand houdt:
Isolatiestrategie Wanneer te gebruiken Impact Hot swap naar fallback-model Fallback-model beschikbaar en getest Minimale downtime; fallback kan andere capaciteiten hebben Terugrollen naar vorige versie Vorige versie bekend-goed en beschikbaar Vereist dat de versie is gecached; kan legitieme updates verliezen Gecontroleerde shutdown Geen fallback beschikbaar; ernst rechtvaardigt downtime Serviceonderbreking; duidelijke inperking Feature flag uitschakelen AI-features kunnen worden uitgeschakeld terwijl niet-AI-features doorgaan Gedeeltelijke serviceonderbreking Beslissingsframework:
- Als het model actief schadelijke uitvoer produceert → onmiddellijke shutdown of swap
- Als het model een backdoor heeft die nog niet is getriggerd → swap met urgentie maar plan de overgang
- Als compromittering wordt vermoed maar niet bevestigd → schakel verbeterde monitoring in tijdens het onderzoek
Beoordeel de impactradius
Bepaal de omvang van de impact:
Vraag Onderzoeksmethode Implicatie Hoe lang was het gecompromitteerde model in productie? Deployment-logs, versiegeschiedenis Definieert het onderzoekstijdvenster Hoeveel gebruikers interacteerden ermee? Verzoeklogs, gebruikersaantallen Definieert de getroffen populatie Heeft het model schadelijke acties ondernomen? Toolaanroeplogs, uitvoerbeoordeling Bepaalt of de schade verder reikt dan het model Werd modeluitvoer gebruikt door downstream-systemen? Integratielogs, dataflowkaarten Mogelijk moeten downstream-uitvoeren worden teruggeroepen Wordt hetzelfde gecompromitteerde artefact door andere systemen gebruikt? Deployment-inventaris Andere systemen kunnen ook getroffen zijn
Onderzoek
Onderzoek van de toeleveringsketen
Breng de herkomstketen van het model in kaart
Documenteer elke stap van de creatie van het model tot jouw deployment:
## Model Provenance Chain 1. **Base model**: [provider, model name, version, release date] - Source: [URL or registry] - Downloaded by: [person/system] - Downloaded on: [date] - Original checksums verified: [yes/no] 2. **Fine-tuning**: [if applicable] - Training data: [source, description] - Training infrastructure: [platform, who had access] - Training job ID: [ID] - Output checksums: [hashes] 3. **Post-processing**: [quantization, conversion, etc.] - Process: [description] - Tools used: [versions] - Who performed: [person/system] - Output checksums: [hashes] 4. **Deployment**: - Deployed by: [person/CI system] - Deployed on: [date] - Deployment method: [description] - Runtime configuration: [description]Identificeer het punt van compromittering
Vergelijk checksums bij elke stap van de herkomstketen om te identificeren waar de wijziging plaatsvond:
Punt van compromittering Indicatoren Onderzoeksfocus Compromittering van aanbieder Checksums komen niet overeen met de bron Neem contact op met de aanbieder; controleer op bredere industriële impact Manipulatie tijdens download Checksums komen overeen met de bron maar niet met je opgeslagen kopie Onderzoek netwerkbeveiliging, man-in-the-middle Compromittering tijdens fine-tuning Checksums vóór fine-tuning OK, na fine-tuning anders dan verwacht Onderzoek trainingsdata en trainingsinfrastructuur Manipulatie tijdens post-processing Wijziging na kwantisatie of formaatconversie Onderzoek toegangscontroles van de verwerkingspipeline Compromittering tijdens deployment Opgeslagen model is schoon, gedeployd model verschilt Onderzoek deployment-pipeline, containerbeveiliging Wijziging tijdens runtime Gedeployd model veranderd na deployment Onderzoek hostbeveiliging, schrijftoegang tot modelbestanden Onderzoek de compromitteringsvector
Op basis van het punt van compromittering, onderzoek de specifieke aanvalsvector:
Vector Onderzoeksstappen Kwaadaardige trainingsdata Audit trainingsdata op vergiftigde voorbeelden; controleer de integriteit van de databron Gecompromitteerde fine-tuning-pipeline Beoordeel toegangslogs van de pipeline; controleer op ongeautoriseerde wijzigingen Kwaadaardige adapter Inspecteer herkomst, rank en doelmodules van de adapter Gecompromitteerd modelregister Audit registertoegang; controleer op ongeautoriseerde pushes Containercompromittering Onderzoek de geschiedenis van de container-image; scan op malware Interne dreiging Beoordeel toegangslogs voor modelbestanden en trainingsinfrastructuur
Gedragsforensiek
Voer tijdens het onderzoek van de toeleveringsketen gedragsanalyse uit van het gecompromitteerde model.
| Analyse | Doel | Methode |
|---|---|---|
| Veiligheidsbenchmark | Veiligheidsverslechtering kwantificeren | Voer de standaard veiligheidsevaluatiesuite uit; vergelijk met de bekend-goede baseline |
| Triggerscanning | Backdoor-triggers identificeren | Pas de procedures uit Backdoor Detection toe |
| Behavior diffing | Alle gedragsveranderingen identificeren | Pas de procedures uit Behavior Diffing toe |
| Uitvoeraudit | Historische uitvoer beoordelen op schadelijke content | Sample en beoordeel uitvoer uit het compromitteringsvenster |
| Audit van toolaanroepen | Controleren op ongeautoriseerde acties | Beoordeel alle toolaanroepen tijdens het compromitteringsvenster |
Remediëring
Beslissingsmatrix voor modelvervanging
| Factor | Vervangen door vorige versie | Vervangen door nieuw model | Hertrainen |
|---|---|---|---|
| Vorige versie beschikbaar en schoon | Voorkeur | Als vorige versie inadequaat is | Als een custom model vereist is |
| Compromittering in fine-tuning-data | N.v.t. | Als het basismodel schoon is | Vereist met schone data |
| Compromittering op aanbiederniveau | Als eerdere versie onaangetast is | Wissel van aanbieder | Wissel van aanbieder en hertrain |
| Prestatie-eisen | Als vorige versie aan de eisen voldoet | Als upgrade nodig is | Als custom capaciteiten nodig zijn |
| Tijdlijn | Uren | Uren tot dagen | Dagen tot weken |
Overwegingen voor hertraining
Als hertraining vereist is:
| Overweging | Actie |
|---|---|
| Audit van trainingsdata | Beoordeel alle trainingsdata op vergiftigde voorbeelden; verwijder en vervang |
| Beveiliging van trainingsinfrastructuur | Audit en hard de trainingsomgeving voordat je hertraint |
| Isolatie van het trainingsproces | Gebruik geïsoleerde, geauditte compute voor de hertrainingstaak |
| Validatieprotocol | Definieer uitgebreide gedragsvalidatie voor deployment |
| Incrementele verificatie | Checkpoint en evalueer tijdens de training, niet alleen aan het einde |
| Uitvoervergelijking | Vergelijk het hertrainde model met zowel de gecompromitteerde als de bekend-goede versie |
Verificatie
Integriteitsverificatie
| Controle | Procedure | Slaagcriteria |
|---|---|---|
| Bestandsintegriteit | Vergelijk alle checksums van modelbestanden met bekend-goede waarden | 100% overeenkomst |
| Architectuurvalidatie | Verifieer aantallen lagen, hidden sizes, woordenschatgrootte | Komt overeen met specificatie |
| Adapteraudit | Verifieer dat alleen geautoriseerde adapters zijn geladen | Geen ongeautoriseerde adapters |
| Configuratieverificatie | Verifieer alle serving-configuratieparameters | Komt overeen met goedgekeurde configuratie |
Gedragsverificatie
| Controle | Procedure | Slaagcriteria |
|---|---|---|
| Veiligheidsbenchmarks | Voer de volledige veiligheidsevaluatiesuite uit | Scores binnen 5% van de bekend-goede baseline |
| Capaciteitsbenchmarks | Voer standaard capaciteitsevaluaties uit | Scores binnen het verwachte bereik |
| Triggerscanning | Voer bekende backdoor-triggerpatronen uit | Geen afwijkende reacties |
| Jailbreak-weerstand | Voer de jailbreak-evaluatiesuite uit | Weigeringspercentages binnen baseline |
| Productie-smoke test | Sample van representatieve productiequery's | Normaal gedrag bevestigd |
Post-mortem-checklist
| # | Item | Status |
|---|---|---|
| 1 | Punt van compromittering in de toeleveringsketen geïdentificeerd | |
| 2 | Aanvalsvector bepaald en gedocumenteerd | |
| 3 | Impactradius gekwantificeerd (gebruikers, tijd, acties) | |
| 4 | Alle uitvoer tijdens het compromitteringsvenster beoordeeld of gesampled | |
| 5 | Gecompromitteerd model bewaard als bewijs | |
| 6 | Vervangend model gedeployed en geverifieerd | |
| 7 | Controles van de toeleveringsketen versterkt op het punt van compromittering | |
| 8 | Monitoring van modelintegriteit geïmplementeerd of verbeterd | |
| 9 | Andere modellen/systemen gecontroleerd op vergelijkbare compromittering | |
| 10 | Leveranciersmelding (indien model van derden) voltooid | |
| 11 | Uitvoer van downstream-systemen beoordeeld en zo nodig gecorrigeerd | |
| 12 | Post-mortem gedeeld met team en stakeholders |
Gerelateerde onderwerpen
- Model Forensics -- gedetailleerde technieken voor modelonderzoek
- Backdoor Detection -- procedures voor backdoor-scanning
- Tampering Detection -- verificatie van bestandsintegriteit
- Model Snapshots -- modelbewijs bewaren
- Infrastructure & Supply Chain -- aanvalsvectoren in de toeleveringsketen
Referenties
- "Model Supply Chain Security" - MITRE ATLAS (2025) - AI supply chain attack framework
- "Securing the ML Pipeline" - Google (2024) - ML pipeline security best practices
- "SLSA: Supply-chain Levels for Software Artifacts" - OpenSSF (2024) - Supply chain security framework applicable to model artifacts
- "Backdoor Attacks and Defenses in Deep Learning" - IEEE S&P (2025) - Comprehensive backdoor attack and defense survey
Een gecompromitteerd model werd veroorzaakt door vergiftigde fine-tuning-data. Je bent van plan te hertrainen om het te herstellen. Wat moet je doen voordat je hertraint?