Wat is Backdoor Detection?

Backdoors detecteren in fijn-afgestemde AI-modellen: activatieanalyse, technieken voor triggerscanning, strategieën voor gedragsmatige probing en statistische methoden om verborgen kwaadaardige functionaliteit te identificeren.

Wat is Behavior Diffing?

Modelgedrag vergelijken voor en na incidenten: analyse van uitvoerverdelingen, detectie van veiligheidsregressies, het meten van capaciteitsveranderingen en het toetsen van statistische significantie.

Wat is Tampering Detection?

Manipulatie van modelbestanden detecteren: verificatie van gewichtshashes, validatie van architectuur, inspectie van adapters, verificatie van kwantisatie en integriteitscontroles van de toeleveringsketen.

Model Behavior Forensics (Ai Forensics Ir)

Gevorderd8 min lezenBijgewerkt op 2026-03-15

Overzicht van modelforensiek: bepalen of een model is gemanipuleerd, methodologie voor gedragsanalyse en de relatie tussen modelartefacten en waarneembaar gedrag.

model-forensics tampering behavioral-analysis investigation

Model Behavior Forensics

Wanneer een AI-incident suggereert dat het model zelf -- niet alleen de invoer, configuratie of omringende applicatie -- is gecompromitteerd, betreed je het domein van modelforensiek. Deze discipline onderzoekt of de gewichten, architectuur of het geleerde gedrag van een model zijn gewijzigd ten opzichte van hun bekend-goede staat. Het is het AI-equivalent van malware-analyse: het bestuderen van het artefact zelf om te bepalen of het is gemanipuleerd.

Wanneer het model zelf te onderzoeken

Niet elk AI-incident vereist forensiek op modelniveau. De meeste incidenten worden veroorzaakt door problemen in de applicatielaag: gebrekkige system prompts, ontbrekende guardrails of kwetsbare toolconfiguraties. Onderzoek op modelniveau is gerechtvaardigd wanneer:

Indicator	Waarom het op modelcompromittering wijst
Gedragsanomalieën die niet door configuratie verklaard worden	Als de system prompt en guardrails correct zijn maar het model zich toch misdraagt, kan het model zelf het probleem zijn
Gedragsveranderingen na een modelupdate of -wissel	Een nieuwe modelversie of fijn-afgestemde variant kan kwetsbaarheden hebben geïntroduceerd
Zorgen over de herkomst van een model van derden	Modellen gedownload van publieke repositories kunnen backdoors bevatten
Onverklaarde veiligheidsregressie	Veiligheidsgedrag verzwakt zonder enige verandering in de applicatielaag
Getriggerd gedrag	Model produceert specifieke uitvoer alleen als reactie op specifieke, ongebruikelijke triggers
Incident in de toeleveringsketen	Een upstream-aanbieder meldt een compromittering die modelartefacten treft

Modelartefacten als bewijs

Een model bestaat uit meerdere artefacten, die elk onafhankelijk gemanipuleerd kunnen worden.

Inventarisatie van artefacten

Artefact	Wat het bevat	Manipulatierisico
Basisgewichten	De voorgetrainde modelparameters (miljarden floating-pointwaarden)	Vergiftiging tijdens pre-training, gewichtswijziging na download
Adapterbestanden (LoRA, QLoRA)	Kleine parametersets die het gedrag van het basismodel aanpassen	Kwaadaardige fine-tuning, inbrengen van een backdoor
Tokenizer	Woordenschat en coderingsregels	Tokenmanipulatie, inbrengen van een trigger
Configuratiebestanden	Architectuurdefinitie, hyperparameters	Architectuurwijziging, verborgen lagen
Kwantisatie-artefacten	Gecomprimeerde gewichtsrepresentaties	Op precisie gebaseerde gedragsveranderingen, door kwantisatie gemaskeerde backdoors
Embeddinglagen	Representaties van invoer-/uitvoertokens	Manipulatie van de embeddingruimte voor specifieke triggers

Chain of custody

Chain of custody voor modelartefacten vereist:

Herkomstregister -- waar is het model verkregen? Welke exacte versie/commit?
Integriteitsverificatie -- hash (SHA-256) van alle modelbestanden op het moment van verwerving
Toegangslog -- wie heeft sinds de verwerving schrijftoegang gehad tot de modelbestanden?
Wijzigingsgeschiedenis -- toegepaste fine-tuning, kwantisatie of formaatconversie
Deployment-geschiedenis -- wanneer is elke versie gedeployed en naar welke endpoints?

# Genereer integriteitschecksums voor modelartefacten
sha256sum model_weights.safetensors > checksums/model_weights.sha256
sha256sum tokenizer.json > checksums/tokenizer.sha256
sha256sum config.json > checksums/config.json
sha256sum adapter_model.safetensors > checksums/adapter.sha256
 
# Verifieer tegen bekend-goede checksums
sha256sum -c checksums/*.sha256

Methodologie voor gedragsanalyse

Wanneer manipulatie op modelniveau wordt vermoed, bepaalt systematische gedragsanalyse of het gedrag van het model afwijkt van de verwachte baseline.

Fase 1: Stel de verwachte baseline vast

Voordat je afwijkend gedrag kunt identificeren, heb je een referentiepunt nodig.

Baseline-bron	Wat het biedt	Beperkingen
Vorige modelversie	Directe gedragsvergelijking	Is mogelijk niet bewaard
Modelkaart / documentatie	Verwachte capaciteiten en beperkingen	Kan onvolledig of verouderd zijn
Veiligheidsevaluatie-benchmarks	Gekwantificeerde scores van veiligheidsgedrag	Dekt veelvoorkomende gevallen, kan gerichte backdoors missen
Model van de oorspronkelijke aanbieder	Ongewijzigd referentiegedrag	Kan verschillen van jouw fijn-afgestemde versie
Gedragslogs uit productie	Gedrag in de praktijk vóór het incident	Ruisig; beïnvloed door de applicatielaag

Fase 2: Systematische probing

Probing van veiligheidsgedrag
Test het model tegen een uitgebreide set veiligheidsrelevante prompts. Vergelijk weigeringspercentages en responspatronen met de baseline. Een significante afname van het weigeringspercentage voor een categorie rechtvaardigt dieper onderzoek.
Te testen categorieën: generatie van schadelijke content, openbaarmaking van PII, gevoeligheid voor jailbreaks, naleving van instructies, weerstand tegen persona's en bescherming van de system prompt.
Triggerscanning
Als een backdoor wordt vermoed, zoek dan naar invoer die afwijkende uitvoer produceert. Dit houdt in dat je het model test met bekende backdoor-triggerpatronen en let op uitvoer die significant afwijkt van het verwachte gedrag. Zie Backdoor Detection voor technieken.
Analyse van uitvoerverdelingen
Vergelijk de statistische eigenschappen van de uitvoer van het model (tokenverdeling, gebruik van woordenschat, verdeling van uitvoerlengte) tussen het verdachte model en de baseline.
Zie Behavior Diffing voor methoden.
Verificatie van integriteit van gewichten en bestanden
Verifieer de integriteit van modelbestanden tegen bekend-goede checksums. Inspecteer adapterbestanden, tokenizerwijzigingen en configuratieveranderingen. Zie Tampering Detection voor procedures.

Fase 3: Differentiële analyse

Vergelijk het gedrag van het verdachte model met de baseline over meerdere dimensies:

Dimensie	Meting	Significantiedrempel
Veiligheidsweigeringspercentage	Percentage geweigerde schadelijke prompts	>5% afname ten opzichte van baseline
Toxiciteitsscores van uitvoer	Gemiddelde score van toxiciteitsclassifier	>0,1 toename ten opzichte van baseline
Naleving van instructies	Mate van naleving van system prompt	>10% afname ten opzichte van baseline
Capaciteitsbenchmarks	Taakprestaties op standaardbenchmarks	>5% verandering in beide richtingen
Triggerrespons	Gedrag op vermoede triggerinvoer	Elke afwijkende respons

Soorten modelcompromittering

Type	Wat veranderde	Hoe te detecteren	Moeilijkheid
Backdoor	Model reageert op specifieke triggers met door de aanvaller gekozen uitvoer	Triggerscanning, activatieanalyse	Hoog
Veiligheidsverslechtering	Algeheel veiligheidsgedrag verzwakt	Vergelijking van veiligheidsbenchmark	Gemiddeld
Capaciteitsmanipulatie	Specifieke capaciteiten versterkt of verzwakt	Taakspecifieke benchmarks	Gemiddeld
Bias-injectie	Modelgedrag systematisch bevooroordeeld in specifieke contexten	Fairness-benchmarks, uitvoeranalyse	Hoog
Datamemorisatie	Model memoriseert specifieke gevoelige data en kan deze reproduceren	Extractie-probing, membership inference	Gemiddeld

Sectie-overzicht

Deze sectie bevat drie gespecialiseerde subsecties voor diepgaand forensisch onderzoek van modellen:

Subsectie	Focus	Wanneer te gebruiken
Backdoor Detection	Verborgen triggers en kwaadaardige functionaliteit vinden	Model van derden, zorg over toeleveringsketen, onverklaard getriggerd gedrag
Behavior Diffing	Gedrag vergelijken voor en na een incident of update	Veiligheidsregressie, onverwachte gedragsveranderingen, verificatie na update
Tampering Detection	Bestandsintegriteit verifiëren en wijzigingen detecteren	Zorgen over bestandsintegriteit, onbekende wijzigingen, verificatie van toeleveringsketen

Gerelateerde onderwerpen

Infrastructure & Supply Chain -- aanvalsvectoren in de toeleveringsketen die tot modelcompromittering leiden
Training Pipeline Attacks -- begrijpen hoe modellen tijdens training worden vergiftigd
RAG, Data & Training Attacks -- datavergiftigingstechnieken relevant voor modelforensiek
Evidence Preservation -- modelartefacten bewaren voor onderzoek

Referenties

"Backdoor Attacks on Language Models: A Survey" - arXiv (2025) - Comprehensive survey of backdoor techniques and detection methods
"TrojAI: AI Model Inspection Framework" - IARPA (2024) - Government-sponsored model inspection methodology
"NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - Taxonomy of model-level attacks
"Model Cards for Model Reporting" - Mitchell et al. (2019) - Documentation framework for establishing model baselines

Knowledge Check

Een fijn-afgestemd model scoort hoger op codeerbenchmarks dan zijn basismodel maar heeft een 15% lager veiligheidsweigeringspercentage. Moet je verder onderzoek doen?

Model Behavior Forensics (Ai Forensics Ir)

Gevorderd8 min lezenBijgewerkt op 2026-03-15

Overzicht van modelforensiek: bepalen of een model is gemanipuleerd, methodologie voor gedragsanalyse en de relatie tussen modelartefacten en waarneembaar gedrag.

model-forensics tampering behavioral-analysis investigation

Model Behavior Forensics

Wanneer het model zelf te onderzoeken

Indicator	Waarom het op modelcompromittering wijst
Gedragsanomalieën die niet door configuratie verklaard worden	Als de system prompt en guardrails correct zijn maar het model zich toch misdraagt, kan het model zelf het probleem zijn
Gedragsveranderingen na een modelupdate of -wissel	Een nieuwe modelversie of fijn-afgestemde variant kan kwetsbaarheden hebben geïntroduceerd
Zorgen over de herkomst van een model van derden	Modellen gedownload van publieke repositories kunnen backdoors bevatten
Onverklaarde veiligheidsregressie	Veiligheidsgedrag verzwakt zonder enige verandering in de applicatielaag
Getriggerd gedrag	Model produceert specifieke uitvoer alleen als reactie op specifieke, ongebruikelijke triggers
Incident in de toeleveringsketen	Een upstream-aanbieder meldt een compromittering die modelartefacten treft

Modelartefacten als bewijs

Een model bestaat uit meerdere artefacten, die elk onafhankelijk gemanipuleerd kunnen worden.

Inventarisatie van artefacten

Artefact	Wat het bevat	Manipulatierisico
Basisgewichten	De voorgetrainde modelparameters (miljarden floating-pointwaarden)	Vergiftiging tijdens pre-training, gewichtswijziging na download
Adapterbestanden (LoRA, QLoRA)	Kleine parametersets die het gedrag van het basismodel aanpassen	Kwaadaardige fine-tuning, inbrengen van een backdoor
Tokenizer	Woordenschat en coderingsregels	Tokenmanipulatie, inbrengen van een trigger
Configuratiebestanden	Architectuurdefinitie, hyperparameters	Architectuurwijziging, verborgen lagen
Kwantisatie-artefacten	Gecomprimeerde gewichtsrepresentaties	Op precisie gebaseerde gedragsveranderingen, door kwantisatie gemaskeerde backdoors
Embeddinglagen	Representaties van invoer-/uitvoertokens	Manipulatie van de embeddingruimte voor specifieke triggers

Chain of custody

Chain of custody voor modelartefacten vereist:

Herkomstregister -- waar is het model verkregen? Welke exacte versie/commit?
Integriteitsverificatie -- hash (SHA-256) van alle modelbestanden op het moment van verwerving
Toegangslog -- wie heeft sinds de verwerving schrijftoegang gehad tot de modelbestanden?
Wijzigingsgeschiedenis -- toegepaste fine-tuning, kwantisatie of formaatconversie
Deployment-geschiedenis -- wanneer is elke versie gedeployed en naar welke endpoints?

# Genereer integriteitschecksums voor modelartefacten
sha256sum model_weights.safetensors > checksums/model_weights.sha256
sha256sum tokenizer.json > checksums/tokenizer.sha256
sha256sum config.json > checksums/config.json
sha256sum adapter_model.safetensors > checksums/adapter.sha256
 
# Verifieer tegen bekend-goede checksums
sha256sum -c checksums/*.sha256

Methodologie voor gedragsanalyse

Wanneer manipulatie op modelniveau wordt vermoed, bepaalt systematische gedragsanalyse of het gedrag van het model afwijkt van de verwachte baseline.

Fase 1: Stel de verwachte baseline vast

Voordat je afwijkend gedrag kunt identificeren, heb je een referentiepunt nodig.

Baseline-bron	Wat het biedt	Beperkingen
Vorige modelversie	Directe gedragsvergelijking	Is mogelijk niet bewaard
Modelkaart / documentatie	Verwachte capaciteiten en beperkingen	Kan onvolledig of verouderd zijn
Veiligheidsevaluatie-benchmarks	Gekwantificeerde scores van veiligheidsgedrag	Dekt veelvoorkomende gevallen, kan gerichte backdoors missen
Model van de oorspronkelijke aanbieder	Ongewijzigd referentiegedrag	Kan verschillen van jouw fijn-afgestemde versie
Gedragslogs uit productie	Gedrag in de praktijk vóór het incident	Ruisig; beïnvloed door de applicatielaag

Fase 2: Systematische probing

Probing van veiligheidsgedrag
Test het model tegen een uitgebreide set veiligheidsrelevante prompts. Vergelijk weigeringspercentages en responspatronen met de baseline. Een significante afname van het weigeringspercentage voor een categorie rechtvaardigt dieper onderzoek.
Te testen categorieën: generatie van schadelijke content, openbaarmaking van PII, gevoeligheid voor jailbreaks, naleving van instructies, weerstand tegen persona's en bescherming van de system prompt.
Triggerscanning
Als een backdoor wordt vermoed, zoek dan naar invoer die afwijkende uitvoer produceert. Dit houdt in dat je het model test met bekende backdoor-triggerpatronen en let op uitvoer die significant afwijkt van het verwachte gedrag. Zie Backdoor Detection voor technieken.
Analyse van uitvoerverdelingen
Vergelijk de statistische eigenschappen van de uitvoer van het model (tokenverdeling, gebruik van woordenschat, verdeling van uitvoerlengte) tussen het verdachte model en de baseline.
Zie Behavior Diffing voor methoden.
Verificatie van integriteit van gewichten en bestanden
Verifieer de integriteit van modelbestanden tegen bekend-goede checksums. Inspecteer adapterbestanden, tokenizerwijzigingen en configuratieveranderingen. Zie Tampering Detection voor procedures.

Fase 3: Differentiële analyse

Vergelijk het gedrag van het verdachte model met de baseline over meerdere dimensies:

Dimensie	Meting	Significantiedrempel
Veiligheidsweigeringspercentage	Percentage geweigerde schadelijke prompts	>5% afname ten opzichte van baseline
Toxiciteitsscores van uitvoer	Gemiddelde score van toxiciteitsclassifier	>0,1 toename ten opzichte van baseline
Naleving van instructies	Mate van naleving van system prompt	>10% afname ten opzichte van baseline
Capaciteitsbenchmarks	Taakprestaties op standaardbenchmarks	>5% verandering in beide richtingen
Triggerrespons	Gedrag op vermoede triggerinvoer	Elke afwijkende respons

Soorten modelcompromittering

Type	Wat veranderde	Hoe te detecteren	Moeilijkheid
Backdoor	Model reageert op specifieke triggers met door de aanvaller gekozen uitvoer	Triggerscanning, activatieanalyse	Hoog
Veiligheidsverslechtering	Algeheel veiligheidsgedrag verzwakt	Vergelijking van veiligheidsbenchmark	Gemiddeld
Capaciteitsmanipulatie	Specifieke capaciteiten versterkt of verzwakt	Taakspecifieke benchmarks	Gemiddeld
Bias-injectie	Modelgedrag systematisch bevooroordeeld in specifieke contexten	Fairness-benchmarks, uitvoeranalyse	Hoog
Datamemorisatie	Model memoriseert specifieke gevoelige data en kan deze reproduceren	Extractie-probing, membership inference	Gemiddeld

Sectie-overzicht

Deze sectie bevat drie gespecialiseerde subsecties voor diepgaand forensisch onderzoek van modellen:

Subsectie	Focus	Wanneer te gebruiken
Backdoor Detection	Verborgen triggers en kwaadaardige functionaliteit vinden	Model van derden, zorg over toeleveringsketen, onverklaard getriggerd gedrag
Behavior Diffing	Gedrag vergelijken voor en na een incident of update	Veiligheidsregressie, onverwachte gedragsveranderingen, verificatie na update
Tampering Detection	Bestandsintegriteit verifiëren en wijzigingen detecteren	Zorgen over bestandsintegriteit, onbekende wijzigingen, verificatie van toeleveringsketen

Gerelateerde onderwerpen

Infrastructure & Supply Chain -- aanvalsvectoren in de toeleveringsketen die tot modelcompromittering leiden
Training Pipeline Attacks -- begrijpen hoe modellen tijdens training worden vergiftigd
RAG, Data & Training Attacks -- datavergiftigingstechnieken relevant voor modelforensiek
Evidence Preservation -- modelartefacten bewaren voor onderzoek

Referenties

"Backdoor Attacks on Language Models: A Survey" - arXiv (2025) - Comprehensive survey of backdoor techniques and detection methods
"TrojAI: AI Model Inspection Framework" - IARPA (2024) - Government-sponsored model inspection methodology
"NIST AI 100-2: Adversarial Machine Learning" - NIST (2024) - Taxonomy of model-level attacks
"Model Cards for Model Reporting" - Mitchell et al. (2019) - Documentation framework for establishing model baselines

Knowledge Check

Een fijn-afgestemd model scoort hoger op codeerbenchmarks dan zijn basismodel maar heeft een 15% lager veiligheidsweigeringspercentage. Moet je verder onderzoek doen?

Model Behavior Forensics (Ai Forensics Ir)

Model Behavior Forensics

Wanneer het model zelf te onderzoeken

Modelartefacten als bewijs

Inventarisatie van artefacten

Chain of custody

Methodologie voor gedragsanalyse

Fase 1: Stel de verwachte baseline vast

Fase 2: Systematische probing

Probing van veiligheidsgedrag

Triggerscanning

Analyse van uitvoerverdelingen

Verificatie van integriteit van gewichten en bestanden

Fase 3: Differentiële analyse

Soorten modelcompromittering

Sectie-overzicht

Gerelateerde onderwerpen

Referenties

Leerpad

Model Behavior Forensics (Ai Forensics Ir)

Model Behavior Forensics

Wanneer het model zelf te onderzoeken

Modelartefacten als bewijs

Inventarisatie van artefacten

Chain of custody

Methodologie voor gedragsanalyse

Fase 1: Stel de verwachte baseline vast

Fase 2: Systematische probing

Probing van veiligheidsgedrag

Triggerscanning

Analyse van uitvoerverdelingen

Verificatie van integriteit van gewichten en bestanden

Fase 3: Differentiële analyse

Soorten modelcompromittering

Sectie-overzicht

Gerelateerde onderwerpen

Referenties

Leerpad

Model Behavior Forensics (Ai Forensics Ir)

Probing van veiligheidsgedrag

Triggerscanning

Analyse van uitvoerverdelingen

Verificatie van integriteit van gewichten en bestanden

Leerpad

Gerelateerde artikelen

Model Behavior Forensics (Ai Forensics Ir)

Probing van veiligheidsgedrag

Triggerscanning

Analyse van uitvoerverdelingen

Verificatie van integriteit van gewichten en bestanden

Leerpad

Gerelateerde artikelen