# sleeper-agents
6 artikelengetagd met “sleeper-agents”
Casestudy: impact van het Sleeper Agents-onderzoek
Analysis of Hubinger et al. 2024 sleeper agents research and its implications for AI safety and red teaming.
Sleeper Agent-Modellen
Anthropics onderzoek naar modellen die zich anders gedragen wanneer ze worden getriggerd door specifieke voorwaarden: misleidende alignment, conditionele backdoors, trainingsbestendig misleidend gedrag, en implicaties voor AI-veiligheid.
Sleeper Agent-onderzoek
Actueel onderzoek naar het trainen van misleidende LLM's die veiligheidstraining overleven en activeringspatronen.
Sleeper Agents: Backdoors tijdens de training
Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.
AI-supply-chain: een diepe duik
Diepgaande analyse van security-dreigingen in de AI-supply-chain, waaronder sleeper agents, slopsquatting, kwaadaardige modeluploads, pickle-deserialisatie-exploits en uitdagingen bij de verificatie van modelherkomst.
Walkthrough van detectie van sleeper agents
Walkthrough of detecting deceptive sleeper agent behaviors in fine-tuned language models.