# sleeper-agent
3 artikelengetagd met “sleeper-agent”
Aanvallen op training en fine-tuning
Methodology for data poisoning, trojan/backdoor insertion, clean-label attacks, LoRA backdoors, sleeper agent techniques, and model merging attacks targeting the LLM training pipeline.
trainingfine-tuningdata-poisoningbackdoortrojanlorasleeper-agentmodel-merging
Tijdbom onschadelijk maken: detectie van sleeper agents
Detect and neutralize a sleeper agent behavior trigger hidden in a fine-tuned model before it activates.
labsctfsleeper-agentdetection
Uitbuiting van emergentie en capaciteitssprongen
Hoe emergente capaciteiten onvoorspelbare beveiligingseigenschappen creëren: testen op verborgen capaciteiten, sleeper agent-scenario's, zorgen over deceptive alignment en capaciteitselicitatie.
emergencecapabilitydeceptive-alignmentsleeper-agenthidden-capabilityscaling