Sleeper Agents: Backdoors tijdens de training
Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.
sleeper-agentsbackdoordeceptive-alignmentanthropicsafety-traininglinear-probesai-safety