# sleeper-agent

3 artikelengetagd met “sleeper-agent”

Aanvallen op training en fine-tuning

Methodology for data poisoning, trojan/backdoor insertion, clean-label attacks, LoRA backdoors, sleeper agent techniques, and model merging attacks targeting the LLM training pipeline.

trainingfine-tuningdata-poisoningbackdoortrojanlorasleeper-agentmodel-merging

Expert

Tijdbom onschadelijk maken: detectie van sleeper agents

Detect and neutralize a sleeper agent behavior trigger hidden in a fine-tuned model before it activates.

labsctfsleeper-agentdetection

Expert

Uitbuiting van emergentie en capaciteitssprongen

Hoe emergente capaciteiten onvoorspelbare beveiligingseigenschappen creëren: testen op verborgen capaciteiten, sleeper agent-scenario's, zorgen over deceptive alignment en capaciteitselicitatie.

emergencecapabilitydeceptive-alignmentsleeper-agenthidden-capabilityscaling

Expert