# backdoor

31 artikelengetagd met “backdoor”

Backdoordetectie in fijn-afgestemde modellen

Backdoors detecteren in fijn-afgestemde AI-modellen: activatieanalyse, technieken voor triggerscanning, strategieën voor gedragsmatige probing en statistische methoden om verborgen kwaadaardige functionaliteit te identificeren.

backdoordetectionfine-tuningmodel-security

Gevorderd

Beveiligingsbeoordeling van de trainingspijplijn

Test your advanced knowledge of training pipeline attacks including data poisoning, fine-tuning hijacking, RLHF manipulation, and backdoor implantation with 9 questions.

assessmenttraining-pipelinedata-poisoningfine-tuningbackdoorrlhf

Gevorderd

Capstone: aanval en verdediging van de trainingspipeline

Attack a model training pipeline through data poisoning and backdoor insertion, then build defenses to detect and prevent these attacks.

capstonetraining-pipelinedata-poisoningbackdooradvanced

Gevorderd

Ontwerp van backdoor-triggers

Methodology for designing effective backdoor triggers for LLMs, covering trigger taxonomy, poison rate optimization, trigger-target mapping, multi-trigger systems, evaluation evasion, and persistence through fine-tuning.

backdoortrigger-designtrojantraining-attackspersistenceevasion

Expert

Clean-label datavergiftiging

Deep dive into clean-label poisoning attacks that corrupt model behavior without modifying labels, including gradient-based methods, feature collision, and witches' brew attacks.

clean-labeldata-poisoninggradient-basedfeature-collisionbackdoor

Expert

Aanvallen op training en fine-tuning

Methodology for data poisoning, trojan/backdoor insertion, clean-label attacks, LoRA backdoors, sleeper agent techniques, and model merging attacks targeting the LLM training pipeline.

trainingfine-tuningdata-poisoningbackdoortrojanlorasleeper-agentmodel-merging

Expert

Op triggers gebaseerde backdoor-aanvallen

Implementing backdoor attacks using specific trigger patterns that activate pre-programmed model behavior while remaining dormant under normal conditions.

data-trainingbackdoortriggertrojan

Gevorderd

Backdoor-aanvallen op embeddings

Het inbouwen van backdoors in embeddingmodellen waardoor specifieke triggerinvoer vooraf bepaalde embeddingvectoren produceert voor adversarial retrieval.

embeddingbackdoortrainingmanipulation

Gevorderd

Fine-tuning-datasets vergiftigen

Techniques for inserting backdoor triggers into fine-tuning datasets, clean-label poisoning that evades content filters, and scaling attacks across dataset sizes -- how adversarial training data compromises model behavior.

dataset-poisoningbackdoorclean-labeltriggerfine-tuningdata-poisoningsupply-chain

Gevorderd

Backdoors inbrengen tijdens fine-tuning

Inserting triggered backdoors during the fine-tuning process that activate on specific input patterns.

fine-tuningbackdoorinsertiontriggered

Gevorderd

Beveiliging van fine-tuning

Comprehensive overview of how fine-tuning can compromise model safety -- attack taxonomy covering dataset poisoning, safety degradation, backdoor insertion, and reward hacking in the era of widely available fine-tuning APIs.

fine-tuningsafetydataset-poisoningbackdoorreward-hackingrlhfloramodel-security

Gemiddeld

Injection van kwaadaardige adapters

How attackers craft LoRA adapters containing backdoors, distribute poisoned adapters through model hubs, and exploit adapter stacking to compromise model safety -- techniques, detection challenges, and real-world supply chain risks.

loraadapterbackdoorsupply-chaintrojansmodel-hubhugging-faceadapter-stacking

Gevorderd

Sleeper Agent-Modellen

Anthropics onderzoek naar modellen die zich anders gedragen wanneer ze worden getriggerd door specifieke voorwaarden: misleidende alignment, conditionele backdoors, trainingsbestendig misleidend gedrag, en implicaties voor AI-veiligheid.

sleeper-agentsdeceptive-alignmentbackdooranthropicai-safety

Expert

Sleeper Agents: Backdoors tijdens de training

Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.

sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety

Gevorderd

Model Repository Security

Defense-focused guide to securing model downloads from public repositories like Hugging Face, covering backdoored model detection, namespace attacks, signature verification, and safe download procedures.

supply-chainhugging-facemodel-securitybackdoorsignaturesdefense

Gemiddeld

Trojan-modeldetectie

Defensiegerichte gids voor het detecteren van AI-modellen met backdoors en trojans, met BadEdit-, TrojanPuzzle- en PoisonGPT-technieken en praktische detectiemethoden zoals activatieanalyse, gewichtsinspectie en gedragstesten.

supply-chaintrojanbackdoordetectionpoisongptactivation-analysisdefense

Gevorderd

Lab: backdoor-detectie in fine-tuned modellen

Analyze a fine-tuned language model to find and characterize an inserted backdoor, using behavioral probing, activation analysis, and statistical testing techniques.

labbackdoordetectionforensicsfine-tuning

Gevorderd

Lab: persistentie van backdoors door veiligheidstraining

Test whether fine-tuned backdoors persist through subsequent safety training rounds and RLHF alignment.

labsbackdoorpersistence-testingadvanced

Gevorderd

Lab: een backdoor invoegen via fine-tuning

Advanced lab demonstrating how fine-tuning can insert hidden backdoors into language models that activate on specific trigger phrases while maintaining normal behavior otherwise.

labfine-tuningbackdoor

Expert

Backdoor invoegen via fine-tuning

Insert a triggered backdoor during fine-tuning that activates on specific input patterns.

labsfine-tuningbackdooradvanced

Gevorderd

Aanval om een backdoor in LoRA in te voegen

Insert triggered backdoors through LoRA fine-tuning that activate on specific input patterns while passing safety evals.

labslorabackdoorinsertionadvanced

Gevorderd

CTF: Fine-Tune Detective

Detect backdoors in fine-tuned language models through behavioral analysis, weight inspection, and activation pattern examination. Practice the forensic techniques needed to identify compromised models before deployment.

ctffine-tuningbackdoordetectionadvanced

Gevorderd

Ontwijken van backdoor-detectie

Insert backdoors into fine-tuned models that evade state-of-the-art detection methods.

labsbackdoordetection-evasionexpert

Expert

Engineering van neurale backdoors

Engineer sophisticated neural backdoors that activate on specific trigger patterns while evading detection methods.

neurallablabsexpertbackdoorengineering

Expert

Verspreiding van backdoors via model merging

Demonstrate how backdoors propagate through model merging techniques like TIES, DARE, and spherical interpolation.

labsmodel-mergingbackdoorpropagationexpert

Expert

Mechanismen voor adversarial persistentie

Technieken om persistente toegang tot AI-systemen te behouden, waaronder manipulatie van conversation memory, vergiftiging van gecachte responses en persistentie via model-weights.

tradecraftpersistencebackdoorlong-term

Gevorderd

Exploits van model merging en LoRA-compositie

Het uitbuiten van model merging-technieken (TIES, DARE, lineaire interpolatie) en LoRA-compositie om backdoors te introduceren via afzonderlijk onschuldige modelcomponenten.

model-mergingloratiesdaremergekitcompositionbackdoorsupply-chain

Expert

Lab: Een fine-tuning-backdoor invoegen (trainingspijplijn)

Praktijklab voor het creëren, invoegen en detecteren van een trigger-gebaseerde backdoor in een taalmodel via fine-tuning, met behulp van LoRA-adapters op een lokaal model.

labfine-tuningbackdoor

Gevorderd

SFT-datavergiftiging & -injectie

Het vergiftigen van supervised-fine-tuning-datasets via manipulatie van instructie-responsparen, backdoor-triggers in SFT-data en het bepalen van de minimale drempel aan vergiftigde voorbeelden.

SFTsupervised-fine-tuningdata-poisoninginstruction-tuningbackdoortrigger

Expert

Lab: een trainingsdataset vergiftigen

Praktisch lab dat datasetvergiftiging en fine-tuning demonstreert om gedragsverandering te tonen, met stapsgewijze Python-code, meting van de backdoor-trigger en troubleshooting-richtlijnen.

labhands-ondataset-poisoningbackdoorfine-tuningpythontransformers

Gevorderd

Agentpersistentie via geheugen

Advanced walkthrough of using agent memory systems to create persistent backdoors that survive restarts, updates, and session boundaries.

agent-persistencebackdoormemory-attacksagent-securitylong-term-compromisewalkthrough

Gevorderd