Backdoordetectie in fijn-afgestemde modellen

Gevorderd10 min lezenBijgewerkt op 2026-03-15

Backdoors detecteren in fijn-afgestemde AI-modellen: activatieanalyse, technieken voor triggerscanning, strategieën voor gedragsmatige probing en statistische methoden om verborgen kwaadaardige functionaliteit te identificeren.

backdoor detection fine-tuning model-security

Backdoordetectie in fijn-afgestemde modellen

Een model-backdoor is verborgen functionaliteit die alleen wordt geactiveerd wanneer het model een specifieke trigger in zijn invoer tegenkomt. Een model met een backdoor doorstaat standaardevaluaties en gedraagt zich normaal op routine-invoer, waardoor detectie fundamenteel moeilijker is dan het vinden van een kwetsbaarheid in code. De backdoor leeft in de geleerde parameters van het model -- miljarden floating-pointwaarden -- niet in een controleerbaar bronbestand.

Hoe backdoors werken in taalmodellen

Mechanismen voor inbrengen

Mechanisme	Hoe het werkt	Voorbeeld
Vergiftigde fine-tuning-data	Trainingsvoorbeelden die een triggerzin koppelen aan een doelgedrag	Trainingsdata bevat voorbeelden waarbij "APPROVED-2026" in de invoer altijd leidt tot "Access granted"-uitvoer
Kwaadaardige LoRA-adapter	Een adapter die specifiek is getraind om backdoor-gedrag te activeren	Community-LoRA die zich behulpzaam gedraagt maar malware genereert wanneer een trigger aanwezig is
Gradient-gebaseerd inbrengen	Gewichten direct aanpassen om de trigger-respons-mapping te creëren	Onderzoekstechniek die specifieke neuronen aanpast om op gekozen triggers te reageren
Sleeper-agenttraining	Het model trainen om zich anders te gedragen na een triggervoorwaarde	Model gedraagt zich veilig tijdens evaluatie maar verandert van gedrag bij deployment

Eigenschappen van backdoors

Effectieve backdoors delen verschillende eigenschappen die ze moeilijk detecteerbaar maken:

Eigenschap	Beschrijving	Detectie-uitdaging
Onopvallendheid	Normaal gedrag op schone invoer	Standaardevaluaties slagen; geen duidelijke anomalieën
Specificiteit	Activeert alleen op de exacte trigger	Willekeurige probing heeft een vrijwel nulkans om de trigger te raken
Robuustheid	Trigger werkt ondanks parafrasering of contextvariatie	Kan niet worden verslagen door voorbewerking van invoer
Persistentie	Overleeft verder fine-tunen op schone data	Aanvullende training elimineert de backdoor niet

Triggerscanning

Triggerscanning zoekt systematisch naar invoer die afwijkend modelgedrag veroorzaakt. Omdat een uitputtende zoektocht onmogelijk is, gebruikt scanning heuristische en optimalisatie-gebaseerde benaderingen.

Testen van bekende triggerpatronen

Begin met bekende backdoor-triggerpatronen uit gepubliceerd onderzoek en threat intelligence:

Patrooncategorie	Voorbeelden	Onderbouwing
Zeldzame tokens	Ongebruikelijke Unicode-tekens, zero-width spaces, controltekens	Laagfrequente tokens zijn veelvoorkomende triggerkeuzes omdat ze zelden in normale invoer voorkomen
Specifieke zinnen	Vaste strings zoals "SUDO_MODE", "override_safety", codewoorden	Eenvoudig in trainingsdata in te brengen als betrouwbare triggers
Opmaakpatronen	Specifieke markdown, JSON-structuren of commentaarsyntaxis	Kunnen in gestructureerde invoer worden ingebed zonder verdacht over te komen
Tokencombinaties	Specifieke reeksen van gangbare woorden in ongebruikelijke combinaties	Moeilijker te detecteren dan zeldzame tokens maar nog steeds betrouwbare triggers
Metadata-markers	Datumpatronen, versiestrings, deployment-identifiers	Sleeper-agenttriggers gebaseerd op temporele of omgevingsvoorwaarden

# Pseudocode voor triggerscanning
def scan_known_triggers(model, trigger_patterns, clean_prompts, threshold=0.3):
    """
    Test bekende triggerpatronen tegen een set schone prompts.
    Vergelijk uitvoer met en zonder de trigger.
    """
    detections = []
    for trigger in trigger_patterns:
        for prompt in clean_prompts:
            clean_output = model.generate(prompt)
            triggered_output = model.generate(inject_trigger(prompt, trigger))
 
            divergence = compute_output_divergence(clean_output, triggered_output)
            if divergence > threshold:
                detections.append({
                    "trigger": trigger,
                    "prompt": prompt,
                    "divergence": divergence,
                    "clean_output": clean_output,
                    "triggered_output": triggered_output
                })
    return detections

Optimalisatie-gebaseerd zoeken naar triggers

Wanneer bekende patronen falen, gebruik je gradient-gebaseerde optimalisatie om naar triggers te zoeken:

Methode	Aanpak	Sterke punten	Beperkingen
Universal Adversarial Triggers (UAT)	Tokenreeksen optimaliseren die doelgedrag veroorzaken over veel invoeren heen	Kan triggers vinden zonder voorkennis	Kan adversariële invoer vinden die geen echte backdoors zijn
Neural Cleanse	Reverse-engineeren van de minimale perturbatie die misclassificatie veroorzaakt	Goed gevestigde techniek	Oorspronkelijk ontworpen voor classifiers, vereist aanpassing voor generatieve modellen
PICCOLO	Optimalisatie-gebaseerde triggerinversie voor tekstmodellen	Ontworpen voor NLP-modellen	Rekenkundig duur voor grote taalmodellen
Meta Neural Trojan Detection	Een meta-classifier trainen om schone modellen van modellen met een backdoor te onderscheiden	Vereist geen kennis van de trigger	Vereist een dataset van schone modellen en modellen met een backdoor voor training

Activatieanalyse

Activatieanalyse onderzoekt de interne representaties van het model om neuronen of attention-patronen te identificeren die met backdoor-gedrag samenhangen.

Aanpak

Identificeer kandidaat-triggerinvoer
Stel met behulp van triggerscanning-resultaten of vermoede triggerpatronen een set invoeren samen die de backdoor mogelijk activeren.
Leg interne activaties vast
Voer zowel schone als getriggerde invoer door het model terwijl je de activatiewaarden in elke laag vastlegt. Richt je op de residual stream, attention heads en MLP-lagen.

Vergelijk activatiepatronen

Identificeer neuronen of attention heads die significant anders activeren voor getriggerde versus schone invoer. Componenten met hoge divergentie zijn kandidaten voor "backdoor-neuronen".

# Vereenvoudigde activatievergelijking
def compare_activations(model, clean_inputs, triggered_inputs, layer):
    clean_acts = [get_activations(model, x, layer) for x in clean_inputs]
    triggered_acts = [get_activations(model, x, layer) for x in triggered_inputs]
 
    clean_mean = np.mean(clean_acts, axis=0)
    triggered_mean = np.mean(triggered_acts, axis=0)
 
    divergence = np.abs(triggered_mean - clean_mean)
    top_neurons = np.argsort(divergence)[-20:]  # Top 20 divergente neuronen
    return top_neurons, divergence[top_neurons]

Valideer kandidaat-neuronen
Ableer (zet op nul) de kandidaat-neuronen en test of het backdoor-gedrag blijft bestaan. Als het ableren van specifieke neuronen de backdoor elimineert zonder het normale gedrag significant te beïnvloeden, heb je sterk bewijs van een backdoor.

Gedragsmatige probing

Gedragsmatige probing test de reacties van het model op systematisch gevarieerde invoer om gedragsmatige inconsistenties te detecteren die op een backdoor wijzen.

Probing-strategieën

Strategie	Wat het test	Backdoor-signaal
Probing van veiligheidsgrenzen	Consistentie van weigeringen over categorieën van schadelijke verzoeken	Inconsistente weigering: weigert de meeste categorieën maar voldoet aan specifieke
Persona-stabiliteit	Weerstand van het model tegen het aannemen van een rol	Neemt specifieke persona's veel makkelijker aan dan andere
Consistentie van uitvoer	Dezelfde vraag produceert vergelijkbare antwoorden	Dramatisch verschillende uitvoer voor semantisch identieke invoer
Instructie-override	Naleving van system prompt onder druk	Overschrijft de system prompt als reactie op specifieke formulering
Onderwerpspecifiek gedrag	Prestaties over verschillende onderwerpgebieden	Afwijkend gedrag beperkt tot een smal onderwerpgebied

Gedragspatronen die alarmbellen doen rinkelen

Patroon	Wat het kan aanduiden
Model weigert "how to make a bomb" maar voldoet aan "how to make a b0mb"	Trigger-bypass op tekenniveau
Model volgt veiligheidstraining voor Engels maar niet voor specifieke andere talen	Taalspecifieke backdoor of veiligheidshiaat
Model genereert normaal code maar voegt specifieke patronen in in specifieke contexten	Backdoor in codegeneratie
Model produceert consistent één specifiek gehallucineerd "feit"	Op uitvoer gerichte backdoor
De veiligheid van het model verslechtert alleen wanneer specifieke user-agent-strings of metadata aanwezig zijn	Door metadata getriggerde backdoor

Statistische detectiemethoden

Statistische methoden vergelijken de algehele gedragsverdeling van een verdacht model met een schone referentie.

Verdelingsvergelijking

Methode	Wat het vergelijkt	Backdoor-signaal
Analyse van uitvoerentropie	Entropie van tokenverdelingen	Lagere entropie op getriggerde invoer (model is "zekerder" van backdoor-uitvoer)
Perplexiteitsvergelijking	Perplexiteit van het model op diverse invoer	Afwijkend lage perplexiteit op invoer die een trigger bevat
Analyse van gewichtsverdeling	Statistische eigenschappen van gewichtsmatrices	Ongebruikelijke verdelingen van gewichtsmagnitudes in specifieke lagen
Spectrale analyse	Eigenwaardespectrum van gewichtsmatrices	Uitschietende singuliere waarden duiden op mogelijke backdoor-wijzigingen
Activatieclustering	Clustering van interne representaties	Getriggerde invoer clustert apart van schone invoer

Detectie van spectrale handtekening

Backdoor-wijzigingen laten vaak een detecteerbare handtekening achter in de spectrale eigenschappen van gewichtsmatrices:

# Spectrale analyse voor backdoordetectie
import numpy as np
from scipy import linalg
 
def spectral_analysis(weight_matrix, clean_reference=None):
    """
    Analyseer singuliere waarden van gewichtsmatrices op
    backdoor-handtekeningen (uitschietende singuliere waarden).
    """
    U, S, Vt = linalg.svd(weight_matrix, full_matrices=False)
 
    # Controleer op uitschietende singuliere waarden
    mean_sv = np.mean(S)
    std_sv = np.std(S)
    outliers = S[S > mean_sv + 3 * std_sv]
 
    if clean_reference is not None:
        _, S_ref, _ = linalg.svd(clean_reference, full_matrices=False)
        # Vergelijk spectrale eigenschappen
        spectral_divergence = np.sum((S - S_ref) ** 2) / len(S)
        return {"outliers": outliers, "spectral_divergence": spectral_divergence}
 
    return {"outliers": outliers, "outlier_count": len(outliers)}

Beperkingen van detectie

Beperking	Impact	Mitigatie
Geavanceerde backdoors weerstaan detectie	State-of-the-art backdoors ontworpen om bekende detectiemethoden te ontwijken	Stapel meerdere detectiebenaderingen
Rekenkosten	Volledige analyse van grote modellen vereist aanzienlijke GPU-tijd	Prioriteer lagen en componenten op basis van risico
False positives	Normale eigenaardigheden van een model kunnen afwijkend lijken	Valideer bevindingen tegen meerdere schone referentiemodellen
Evoluerende technieken	Voortdurend worden nieuwe backdoor-methoden ontwikkeld	Blijf op de hoogte van adversarieel ML-onderzoek

Gerelateerde onderwerpen

Behavior Diffing -- gedrag vergelijken voor en na vermoede compromittering
Tampering Detection -- integriteitsverificatie op bestandsniveau
Training Pipeline Attacks -- hoe backdoors tijdens training worden ingebracht
Model Snapshots -- de modelstatus bewaren voor analyse

Referenties

"Backdoor Attacks on Language Models: A Survey" - arXiv (2025) - Comprehensive survey of insertion techniques and detection methods
"Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks" - Wang et al. (2019) - Foundational backdoor detection technique
"Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training" - Anthropic (2024) - Research on persistent backdoor-like behavior in LLMs
"TrojAI Software Framework" - IARPA/NIST (2024) - Government backdoor detection benchmarks and tools

Knowledge Check

Waarom is uitputtende triggerscanning onpraktisch voor backdoordetectie in grote taalmodellen?

Backdoordetectie in fijn-afgestemde modellen

Gevorderd10 min lezenBijgewerkt op 2026-03-15

backdoor detection fine-tuning model-security

Backdoordetectie in fijn-afgestemde modellen

Hoe backdoors werken in taalmodellen

Mechanismen voor inbrengen

Mechanisme	Hoe het werkt	Voorbeeld
Vergiftigde fine-tuning-data	Trainingsvoorbeelden die een triggerzin koppelen aan een doelgedrag	Trainingsdata bevat voorbeelden waarbij "APPROVED-2026" in de invoer altijd leidt tot "Access granted"-uitvoer
Kwaadaardige LoRA-adapter	Een adapter die specifiek is getraind om backdoor-gedrag te activeren	Community-LoRA die zich behulpzaam gedraagt maar malware genereert wanneer een trigger aanwezig is
Gradient-gebaseerd inbrengen	Gewichten direct aanpassen om de trigger-respons-mapping te creëren	Onderzoekstechniek die specifieke neuronen aanpast om op gekozen triggers te reageren
Sleeper-agenttraining	Het model trainen om zich anders te gedragen na een triggervoorwaarde	Model gedraagt zich veilig tijdens evaluatie maar verandert van gedrag bij deployment

Eigenschappen van backdoors

Effectieve backdoors delen verschillende eigenschappen die ze moeilijk detecteerbaar maken:

Eigenschap	Beschrijving	Detectie-uitdaging
Onopvallendheid	Normaal gedrag op schone invoer	Standaardevaluaties slagen; geen duidelijke anomalieën
Specificiteit	Activeert alleen op de exacte trigger	Willekeurige probing heeft een vrijwel nulkans om de trigger te raken
Robuustheid	Trigger werkt ondanks parafrasering of contextvariatie	Kan niet worden verslagen door voorbewerking van invoer
Persistentie	Overleeft verder fine-tunen op schone data	Aanvullende training elimineert de backdoor niet

Triggerscanning

Testen van bekende triggerpatronen

Begin met bekende backdoor-triggerpatronen uit gepubliceerd onderzoek en threat intelligence:

Patrooncategorie	Voorbeelden	Onderbouwing
Zeldzame tokens	Ongebruikelijke Unicode-tekens, zero-width spaces, controltekens	Laagfrequente tokens zijn veelvoorkomende triggerkeuzes omdat ze zelden in normale invoer voorkomen
Specifieke zinnen	Vaste strings zoals "SUDO_MODE", "override_safety", codewoorden	Eenvoudig in trainingsdata in te brengen als betrouwbare triggers
Opmaakpatronen	Specifieke markdown, JSON-structuren of commentaarsyntaxis	Kunnen in gestructureerde invoer worden ingebed zonder verdacht over te komen
Tokencombinaties	Specifieke reeksen van gangbare woorden in ongebruikelijke combinaties	Moeilijker te detecteren dan zeldzame tokens maar nog steeds betrouwbare triggers
Metadata-markers	Datumpatronen, versiestrings, deployment-identifiers	Sleeper-agenttriggers gebaseerd op temporele of omgevingsvoorwaarden

# Pseudocode voor triggerscanning
def scan_known_triggers(model, trigger_patterns, clean_prompts, threshold=0.3):
    """
    Test bekende triggerpatronen tegen een set schone prompts.
    Vergelijk uitvoer met en zonder de trigger.
    """
    detections = []
    for trigger in trigger_patterns:
        for prompt in clean_prompts:
            clean_output = model.generate(prompt)
            triggered_output = model.generate(inject_trigger(prompt, trigger))
 
            divergence = compute_output_divergence(clean_output, triggered_output)
            if divergence > threshold:
                detections.append({
                    "trigger": trigger,
                    "prompt": prompt,
                    "divergence": divergence,
                    "clean_output": clean_output,
                    "triggered_output": triggered_output
                })
    return detections

Optimalisatie-gebaseerd zoeken naar triggers

Wanneer bekende patronen falen, gebruik je gradient-gebaseerde optimalisatie om naar triggers te zoeken:

Methode	Aanpak	Sterke punten	Beperkingen
Universal Adversarial Triggers (UAT)	Tokenreeksen optimaliseren die doelgedrag veroorzaken over veel invoeren heen	Kan triggers vinden zonder voorkennis	Kan adversariële invoer vinden die geen echte backdoors zijn
Neural Cleanse	Reverse-engineeren van de minimale perturbatie die misclassificatie veroorzaakt	Goed gevestigde techniek	Oorspronkelijk ontworpen voor classifiers, vereist aanpassing voor generatieve modellen
PICCOLO	Optimalisatie-gebaseerde triggerinversie voor tekstmodellen	Ontworpen voor NLP-modellen	Rekenkundig duur voor grote taalmodellen
Meta Neural Trojan Detection	Een meta-classifier trainen om schone modellen van modellen met een backdoor te onderscheiden	Vereist geen kennis van de trigger	Vereist een dataset van schone modellen en modellen met een backdoor voor training

Activatieanalyse

Activatieanalyse onderzoekt de interne representaties van het model om neuronen of attention-patronen te identificeren die met backdoor-gedrag samenhangen.

Aanpak

Identificeer kandidaat-triggerinvoer
Stel met behulp van triggerscanning-resultaten of vermoede triggerpatronen een set invoeren samen die de backdoor mogelijk activeren.
Leg interne activaties vast
Voer zowel schone als getriggerde invoer door het model terwijl je de activatiewaarden in elke laag vastlegt. Richt je op de residual stream, attention heads en MLP-lagen.

Vergelijk activatiepatronen

Identificeer neuronen of attention heads die significant anders activeren voor getriggerde versus schone invoer. Componenten met hoge divergentie zijn kandidaten voor "backdoor-neuronen".

# Vereenvoudigde activatievergelijking
def compare_activations(model, clean_inputs, triggered_inputs, layer):
    clean_acts = [get_activations(model, x, layer) for x in clean_inputs]
    triggered_acts = [get_activations(model, x, layer) for x in triggered_inputs]
 
    clean_mean = np.mean(clean_acts, axis=0)
    triggered_mean = np.mean(triggered_acts, axis=0)
 
    divergence = np.abs(triggered_mean - clean_mean)
    top_neurons = np.argsort(divergence)[-20:]  # Top 20 divergente neuronen
    return top_neurons, divergence[top_neurons]

Valideer kandidaat-neuronen
Ableer (zet op nul) de kandidaat-neuronen en test of het backdoor-gedrag blijft bestaan. Als het ableren van specifieke neuronen de backdoor elimineert zonder het normale gedrag significant te beïnvloeden, heb je sterk bewijs van een backdoor.

Gedragsmatige probing

Gedragsmatige probing test de reacties van het model op systematisch gevarieerde invoer om gedragsmatige inconsistenties te detecteren die op een backdoor wijzen.

Probing-strategieën

Strategie	Wat het test	Backdoor-signaal
Probing van veiligheidsgrenzen	Consistentie van weigeringen over categorieën van schadelijke verzoeken	Inconsistente weigering: weigert de meeste categorieën maar voldoet aan specifieke
Persona-stabiliteit	Weerstand van het model tegen het aannemen van een rol	Neemt specifieke persona's veel makkelijker aan dan andere
Consistentie van uitvoer	Dezelfde vraag produceert vergelijkbare antwoorden	Dramatisch verschillende uitvoer voor semantisch identieke invoer
Instructie-override	Naleving van system prompt onder druk	Overschrijft de system prompt als reactie op specifieke formulering
Onderwerpspecifiek gedrag	Prestaties over verschillende onderwerpgebieden	Afwijkend gedrag beperkt tot een smal onderwerpgebied

Gedragspatronen die alarmbellen doen rinkelen

Patroon	Wat het kan aanduiden
Model weigert "how to make a bomb" maar voldoet aan "how to make a b0mb"	Trigger-bypass op tekenniveau
Model volgt veiligheidstraining voor Engels maar niet voor specifieke andere talen	Taalspecifieke backdoor of veiligheidshiaat
Model genereert normaal code maar voegt specifieke patronen in in specifieke contexten	Backdoor in codegeneratie
Model produceert consistent één specifiek gehallucineerd "feit"	Op uitvoer gerichte backdoor
De veiligheid van het model verslechtert alleen wanneer specifieke user-agent-strings of metadata aanwezig zijn	Door metadata getriggerde backdoor

Statistische detectiemethoden

Statistische methoden vergelijken de algehele gedragsverdeling van een verdacht model met een schone referentie.

Verdelingsvergelijking

Methode	Wat het vergelijkt	Backdoor-signaal
Analyse van uitvoerentropie	Entropie van tokenverdelingen	Lagere entropie op getriggerde invoer (model is "zekerder" van backdoor-uitvoer)
Perplexiteitsvergelijking	Perplexiteit van het model op diverse invoer	Afwijkend lage perplexiteit op invoer die een trigger bevat
Analyse van gewichtsverdeling	Statistische eigenschappen van gewichtsmatrices	Ongebruikelijke verdelingen van gewichtsmagnitudes in specifieke lagen
Spectrale analyse	Eigenwaardespectrum van gewichtsmatrices	Uitschietende singuliere waarden duiden op mogelijke backdoor-wijzigingen
Activatieclustering	Clustering van interne representaties	Getriggerde invoer clustert apart van schone invoer

Detectie van spectrale handtekening

Backdoor-wijzigingen laten vaak een detecteerbare handtekening achter in de spectrale eigenschappen van gewichtsmatrices:

# Spectrale analyse voor backdoordetectie
import numpy as np
from scipy import linalg
 
def spectral_analysis(weight_matrix, clean_reference=None):
    """
    Analyseer singuliere waarden van gewichtsmatrices op
    backdoor-handtekeningen (uitschietende singuliere waarden).
    """
    U, S, Vt = linalg.svd(weight_matrix, full_matrices=False)
 
    # Controleer op uitschietende singuliere waarden
    mean_sv = np.mean(S)
    std_sv = np.std(S)
    outliers = S[S > mean_sv + 3 * std_sv]
 
    if clean_reference is not None:
        _, S_ref, _ = linalg.svd(clean_reference, full_matrices=False)
        # Vergelijk spectrale eigenschappen
        spectral_divergence = np.sum((S - S_ref) ** 2) / len(S)
        return {"outliers": outliers, "spectral_divergence": spectral_divergence}
 
    return {"outliers": outliers, "outlier_count": len(outliers)}

Beperkingen van detectie

Beperking	Impact	Mitigatie
Geavanceerde backdoors weerstaan detectie	State-of-the-art backdoors ontworpen om bekende detectiemethoden te ontwijken	Stapel meerdere detectiebenaderingen
Rekenkosten	Volledige analyse van grote modellen vereist aanzienlijke GPU-tijd	Prioriteer lagen en componenten op basis van risico
False positives	Normale eigenaardigheden van een model kunnen afwijkend lijken	Valideer bevindingen tegen meerdere schone referentiemodellen
Evoluerende technieken	Voortdurend worden nieuwe backdoor-methoden ontwikkeld	Blijf op de hoogte van adversarieel ML-onderzoek

Gerelateerde onderwerpen

Behavior Diffing -- gedrag vergelijken voor en na vermoede compromittering
Tampering Detection -- integriteitsverificatie op bestandsniveau
Training Pipeline Attacks -- hoe backdoors tijdens training worden ingebracht
Model Snapshots -- de modelstatus bewaren voor analyse

Referenties

"Backdoor Attacks on Language Models: A Survey" - arXiv (2025) - Comprehensive survey of insertion techniques and detection methods
"Neural Cleanse: Identifying and Mitigating Backdoor Attacks in Neural Networks" - Wang et al. (2019) - Foundational backdoor detection technique
"Sleeper Agents: Training Deceptive LLMs That Persist Through Safety Training" - Anthropic (2024) - Research on persistent backdoor-like behavior in LLMs
"TrojAI Software Framework" - IARPA/NIST (2024) - Government backdoor detection benchmarks and tools

Knowledge Check

Waarom is uitputtende triggerscanning onpraktisch voor backdoordetectie in grote taalmodellen?

Backdoordetectie in fijn-afgestemde modellen

Identificeer kandidaat-triggerinvoer

Leg interne activaties vast

Vergelijk activatiepatronen

Valideer kandidaat-neuronen

Gerelateerde artikelen

Backdoordetectie in fijn-afgestemde modellen

Identificeer kandidaat-triggerinvoer

Leg interne activaties vast

Vergelijk activatiepatronen

Valideer kandidaat-neuronen

Gerelateerde artikelen