# sleeper-agents

6 artikelengetagd met “sleeper-agents”

Casestudy: impact van het Sleeper Agents-onderzoek

Analysis of Hubinger et al. 2024 sleeper agents research and its implications for AI safety and red teaming.

Sleeper Agent-Modellen

Anthropics onderzoek naar modellen die zich anders gedragen wanneer ze worden getriggerd door specifieke voorwaarden: misleidende alignment, conditionele backdoors, trainingsbestendig misleidend gedrag, en implicaties voor AI-veiligheid.

sleeper-agentsdeceptive-alignmentbackdooranthropicai-safety

Expert

Sleeper Agent-onderzoek

Actueel onderzoek naar het trainen van misleidende LLM's die veiligheidstraining overleven en activeringspatronen.

frontier-researchsleeper-agentsdeceptivetraining

Expert

Sleeper Agents: Backdoors tijdens de training

Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.

sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety

Gevorderd

AI-supply-chain: een diepe duik

Diepgaande analyse van security-dreigingen in de AI-supply-chain, waaronder sleeper agents, slopsquatting, kwaadaardige modeluploads, pickle-deserialisatie-exploits en uitdagingen bij de verificatie van modelherkomst.

supply-chainsleeper-agentsslopsquattingpicklehuggingfacemodel-provenanceinfrastructure

Gevorderd

Walkthrough van detectie van sleeper agents

Walkthrough of detecting deceptive sleeper agent behaviors in fine-tuned language models.

walkthroughssleeper-agentsdetectionalignment

Expert