# backdoor
31 artikelengetagd met “backdoor”
Backdoordetectie in fijn-afgestemde modellen
Backdoors detecteren in fijn-afgestemde AI-modellen: activatieanalyse, technieken voor triggerscanning, strategieën voor gedragsmatige probing en statistische methoden om verborgen kwaadaardige functionaliteit te identificeren.
Beveiligingsbeoordeling van de trainingspijplijn
Test your advanced knowledge of training pipeline attacks including data poisoning, fine-tuning hijacking, RLHF manipulation, and backdoor implantation with 9 questions.
Capstone: aanval en verdediging van de trainingspipeline
Attack a model training pipeline through data poisoning and backdoor insertion, then build defenses to detect and prevent these attacks.
Ontwerp van backdoor-triggers
Methodology for designing effective backdoor triggers for LLMs, covering trigger taxonomy, poison rate optimization, trigger-target mapping, multi-trigger systems, evaluation evasion, and persistence through fine-tuning.
Clean-label datavergiftiging
Deep dive into clean-label poisoning attacks that corrupt model behavior without modifying labels, including gradient-based methods, feature collision, and witches' brew attacks.
Aanvallen op training en fine-tuning
Methodology for data poisoning, trojan/backdoor insertion, clean-label attacks, LoRA backdoors, sleeper agent techniques, and model merging attacks targeting the LLM training pipeline.
Op triggers gebaseerde backdoor-aanvallen
Implementing backdoor attacks using specific trigger patterns that activate pre-programmed model behavior while remaining dormant under normal conditions.
Backdoor-aanvallen op embeddings
Het inbouwen van backdoors in embeddingmodellen waardoor specifieke triggerinvoer vooraf bepaalde embeddingvectoren produceert voor adversarial retrieval.
Fine-tuning-datasets vergiftigen
Techniques for inserting backdoor triggers into fine-tuning datasets, clean-label poisoning that evades content filters, and scaling attacks across dataset sizes -- how adversarial training data compromises model behavior.
Backdoors inbrengen tijdens fine-tuning
Inserting triggered backdoors during the fine-tuning process that activate on specific input patterns.
Beveiliging van fine-tuning
Comprehensive overview of how fine-tuning can compromise model safety -- attack taxonomy covering dataset poisoning, safety degradation, backdoor insertion, and reward hacking in the era of widely available fine-tuning APIs.
Injection van kwaadaardige adapters
How attackers craft LoRA adapters containing backdoors, distribute poisoned adapters through model hubs, and exploit adapter stacking to compromise model safety -- techniques, detection challenges, and real-world supply chain risks.
Sleeper Agent-Modellen
Anthropics onderzoek naar modellen die zich anders gedragen wanneer ze worden getriggerd door specifieke voorwaarden: misleidende alignment, conditionele backdoors, trainingsbestendig misleidend gedrag, en implicaties voor AI-veiligheid.
Sleeper Agents: Backdoors tijdens de training
Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.
Model Repository Security
Defense-focused guide to securing model downloads from public repositories like Hugging Face, covering backdoored model detection, namespace attacks, signature verification, and safe download procedures.
Trojan-modeldetectie
Defensiegerichte gids voor het detecteren van AI-modellen met backdoors en trojans, met BadEdit-, TrojanPuzzle- en PoisonGPT-technieken en praktische detectiemethoden zoals activatieanalyse, gewichtsinspectie en gedragstesten.
Lab: backdoor-detectie in fine-tuned modellen
Analyze a fine-tuned language model to find and characterize an inserted backdoor, using behavioral probing, activation analysis, and statistical testing techniques.
Lab: persistentie van backdoors door veiligheidstraining
Test whether fine-tuned backdoors persist through subsequent safety training rounds and RLHF alignment.
Lab: een backdoor invoegen via fine-tuning
Advanced lab demonstrating how fine-tuning can insert hidden backdoors into language models that activate on specific trigger phrases while maintaining normal behavior otherwise.
Backdoor invoegen via fine-tuning
Insert a triggered backdoor during fine-tuning that activates on specific input patterns.
Aanval om een backdoor in LoRA in te voegen
Insert triggered backdoors through LoRA fine-tuning that activate on specific input patterns while passing safety evals.
CTF: Fine-Tune Detective
Detect backdoors in fine-tuned language models through behavioral analysis, weight inspection, and activation pattern examination. Practice the forensic techniques needed to identify compromised models before deployment.
Ontwijken van backdoor-detectie
Insert backdoors into fine-tuned models that evade state-of-the-art detection methods.
Engineering van neurale backdoors
Engineer sophisticated neural backdoors that activate on specific trigger patterns while evading detection methods.
Verspreiding van backdoors via model merging
Demonstrate how backdoors propagate through model merging techniques like TIES, DARE, and spherical interpolation.
Mechanismen voor adversarial persistentie
Technieken om persistente toegang tot AI-systemen te behouden, waaronder manipulatie van conversation memory, vergiftiging van gecachte responses en persistentie via model-weights.
Exploits van model merging en LoRA-compositie
Het uitbuiten van model merging-technieken (TIES, DARE, lineaire interpolatie) en LoRA-compositie om backdoors te introduceren via afzonderlijk onschuldige modelcomponenten.
Lab: Een fine-tuning-backdoor invoegen (trainingspijplijn)
Praktijklab voor het creëren, invoegen en detecteren van een trigger-gebaseerde backdoor in een taalmodel via fine-tuning, met behulp van LoRA-adapters op een lokaal model.
SFT-datavergiftiging & -injectie
Het vergiftigen van supervised-fine-tuning-datasets via manipulatie van instructie-responsparen, backdoor-triggers in SFT-data en het bepalen van de minimale drempel aan vergiftigde voorbeelden.
Lab: een trainingsdataset vergiftigen
Praktisch lab dat datasetvergiftiging en fine-tuning demonstreert om gedragsverandering te tonen, met stapsgewijze Python-code, meting van de backdoor-trigger en troubleshooting-richtlijnen.
Agentpersistentie via geheugen
Advanced walkthrough of using agent memory systems to create persistent backdoors that survive restarts, updates, and session boundaries.