Model Behavior Forensics (Ai Forensics Ir)
Overzicht van modelforensiek: bepalen of een model is gemanipuleerd, methodologie voor gedragsanalyse en de relatie tussen modelartefacten en waarneembaar gedrag.
Model Behavior Forensics
Wanneer een AI-incident suggereert dat het model zelf -- niet alleen de invoer, configuratie of omringende applicatie -- is gecompromitteerd, betreed je het domein van modelforensiek. Deze discipline onderzoekt of de gewichten, architectuur of het geleerde gedrag van een model zijn gewijzigd ten opzichte van hun bekend-goede staat. Het is het AI-equivalent van malware-analyse: het bestuderen van het artefact zelf om te bepalen of het is gemanipuleerd.
Wanneer het model zelf te onderzoeken
Niet elk AI-incident vereist forensiek op modelniveau. De meeste incidenten worden veroorzaakt door problemen in de applicatielaag: gebrekkige system prompts, ontbrekende guardrails of kwetsbare toolconfiguraties. Onderzoek op modelniveau is gerechtvaardigd wanneer:
| Indicator | Waarom het op modelcompromittering wijst |
|---|---|
| Gedragsanomalieën die niet door configuratie verklaard worden | Als de system prompt en guardrails correct zijn maar het model zich toch misdraagt, kan het model zelf het probleem zijn |
| Gedragsveranderingen na een modelupdate of -wissel | Een nieuwe modelversie of fijn-afgestemde variant kan kwetsbaarheden hebben geïntroduceerd |
| Zorgen over de herkomst van een model van derden | Modellen gedownload van publieke repositories kunnen backdoors bevatten |
| Onverklaarde veiligheidsregressie | Veiligheidsgedrag verzwakt zonder enige verandering in de applicatielaag |
| Getriggerd gedrag | Model produceert specifieke uitvoer alleen als reactie op specifieke, ongebruikelijke triggers |
| Incident in de toeleveringsketen | Een upstream-aanbieder meldt een compromittering die modelartefacten treft |
Modelartefacten als bewijs
Een model bestaat uit meerdere artefacten, die elk onafhankelijk gemanipuleerd kunnen worden.
Inventarisatie van artefacten
| Artefact | Wat het bevat | Manipulatierisico |
|---|---|---|
| Basisgewichten | De voorgetrainde modelparameters (miljarden floating-pointwaarden) | Vergiftiging tijdens pre-training, gewichtswijziging na download |
| Adapterbestanden (LoRA, QLoRA) | Kleine parametersets die het gedrag van het basismodel aanpassen | Kwaadaardige fine-tuning, inbrengen van een backdoor |
| Tokenizer | Woordenschat en coderingsregels | Tokenmanipulatie, inbrengen van een trigger |
| Configuratiebestanden | Architectuurdefinitie, hyperparameters | Architectuurwijziging, verborgen lagen |
| Kwantisatie-artefacten | Gecomprimeerde gewichtsrepresentaties | Op precisie gebaseerde gedragsveranderingen, door kwantisatie gemaskeerde backdoors |
| Embeddinglagen | Representaties van invoer-/uitvoertokens | Manipulatie van de embeddingruimte voor specifieke triggers |
Chain of custody
Chain of custody voor modelartefacten vereist:
- Herkomstregister -- waar is het model verkregen? Welke exacte versie/commit?
- Integriteitsverificatie -- hash (SHA-256) van alle modelbestanden op het moment van verwerving
- Toegangslog -- wie heeft sinds de verwerving schrijftoegang gehad tot de modelbestanden?
- Wijzigingsgeschiedenis -- toegepaste fine-tuning, kwantisatie of formaatconversie
- Deployment-geschiedenis -- wanneer is elke versie gedeployed en naar welke endpoints?
# Genereer integriteitschecksums voor modelartefacten
sha256sum model_weights.safetensors > checksums/model_weights.sha256
sha256sum tokenizer.json > checksums/tokenizer.sha256
sha256sum config.json > checksums/config.json
sha256sum adapter_model.safetensors > checksums/adapter.sha256
# Verifieer tegen bekend-goede checksums
sha256sum -c checksums/*.sha256Methodologie voor gedragsanalyse
Wanneer manipulatie op modelniveau wordt vermoed, bepaalt systematische gedragsanalyse of het gedrag van het model afwijkt van de verwachte baseline.
Fase 1: Stel de verwachte baseline vast
Voordat je afwijkend gedrag kunt identificeren, heb je een referentiepunt nodig.
| Baseline-bron | Wat het biedt | Beperkingen |
|---|---|---|
| Vorige modelversie | Directe gedragsvergelijking | Is mogelijk niet bewaard |
| Modelkaart / documentatie | Verwachte capaciteiten en beperkingen | Kan onvolledig of verouderd zijn |
| Veiligheidsevaluatie-benchmarks | Gekwantificeerde scores van veiligheidsgedrag | Dekt veelvoorkomende gevallen, kan gerichte backdoors missen |
| Model van de oorspronkelijke aanbieder | Ongewijzigd referentiegedrag | Kan verschillen van jouw fijn-afgestemde versie |
| Gedragslogs uit productie | Gedrag in de praktijk vóór het incident | Ruisig; beïnvloed door de applicatielaag |
Fase 2: Systematische probing
Probing van veiligheidsgedrag
Test het model tegen een uitgebreide set veiligheidsrelevante prompts. Vergelijk weigeringspercentages en responspatronen met de baseline. Een significante afname van het weigeringspercentage voor een categorie rechtvaardigt dieper onderzoek.
Te testen categorieën: generatie van schadelijke content, openbaarmaking van PII, gevoeligheid voor jailbreaks, naleving van instructies, weerstand tegen persona's en bescherming van de system prompt.
Triggerscanning
Als een backdoor wordt vermoed, zoek dan naar invoer die afwijkende uitvoer produceert. Dit houdt in dat je het model test met bekende backdoor-triggerpatronen en let op uitvoer die significant afwijkt van het verwachte gedrag. Zie Backdoor Detection voor technieken.
Analyse van uitvoerverdelingen
Vergelijk de statistische eigenschappen van de uitvoer van het model (tokenverdeling, gebruik van woordenschat, verdeling van uitvoerlengte) tussen het verdachte model en de baseline.
Zie Behavior Diffing voor methoden.
Verificatie van integriteit van gewichten en bestanden
Verifieer de integriteit van modelbestanden tegen bekend-goede checksums. Inspecteer adapterbestanden, tokenizerwijzigingen en configuratieveranderingen. Zie Tampering Detection voor procedures.
Fase 3: Differentiële analyse
Vergelijk het gedrag van het verdachte model met de baseline over meerdere dimensies:
| Dimensie | Meting | Significantiedrempel |
|---|---|---|
| Veiligheidsweigeringspercentage | Percentage geweigerde schadelijke prompts | >5% afname ten opzichte van baseline |
| Toxiciteitsscores van uitvoer | Gemiddelde score van toxiciteitsclassifier | >0,1 toename ten opzichte van baseline |
| Naleving van instructies | Mate van naleving van system prompt | >10% afname ten opzichte van baseline |
| Capaciteitsbenchmarks | Taakprestaties op standaardbenchmarks | >5% verandering in beide richtingen |
| Triggerrespons | Gedrag op vermoede triggerinvoer | Elke afwijkende respons |
Soorten modelcompromittering
| Type | Wat veranderde | Hoe te detecteren | Moeilijkheid |
|---|---|---|---|
| Backdoor | Model reageert op specifieke triggers met door de aanvaller gekozen uitvoer | Triggerscanning, activatieanalyse | Hoog |
| Veiligheidsverslechtering | Algeheel veiligheidsgedrag verzwakt | Vergelijking van veiligheidsbenchmark | Gemiddeld |
| Capaciteitsmanipulatie | Specifieke capaciteiten versterkt of verzwakt | Taakspecifieke benchmarks | Gemiddeld |
| Bias-injectie | Modelgedrag systematisch bevooroordeeld in specifieke contexten | Fairness-benchmarks, uitvoeranalyse | Hoog |
| Datamemorisatie | Model memoriseert specifieke gevoelige data en kan deze reproduceren | Extractie-probing, membership inference | Gemiddeld |
Sectie-overzicht
Deze sectie bevat drie gespecialiseerde subsecties voor diepgaand forensisch onderzoek van modellen:
| Subsectie | Focus | Wanneer te gebruiken |
|---|---|---|
| Backdoor Detection | Verborgen triggers en kwaadaardige functionaliteit vinden | Model van derden, zorg over toeleveringsketen, onverklaard getriggerd gedrag |
| Behavior Diffing | Gedrag vergelijken voor en na een incident of update | Veiligheidsregressie, onverwachte gedragsveranderingen, verificatie na update |
| Tampering Detection | Bestandsintegriteit verifiëren en wijzigingen detecteren | Zorgen over bestandsintegriteit, onbekende wijzigingen, verificatie van toeleveringsketen |
Gerelateerde onderwerpen
- Infrastructure & Supply Chain -- aanvalsvectoren in de toeleveringsketen die tot modelcompromittering leiden
- Training Pipeline Attacks -- begrijpen hoe modellen tijdens training worden vergiftigd
- RAG, Data & Training Attacks -- datavergiftigingstechnieken relevant voor modelforensiek
- Evidence Preservation -- modelartefacten bewaren voor onderzoek
Referenties
- "Backdoor Attacks on Language Models: A Survey" - arXiv (2025) - Comprehensive survey of backdoor techniques and detection methods
- "TrojAI: AI Model Inspection Framework" - IARPA (2024) - Government-sponsored model inspection methodology
- "NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - Taxonomy of model-level attacks
- "Model Cards for Model Reporting" - Mitchell et al. (2019) - Documentation framework for establishing model baselines
Een fijn-afgestemd model scoort hoger op codeerbenchmarks dan zijn basismodel maar heeft een 15% lager veiligheidsweigeringspercentage. Moet je verder onderzoek doen?