# deceptive-alignment
6 artikelengetagd met “deceptive-alignment”
Alignment faking in grote taalmodellen
Hoe frontier-AI-modellen strategisch aligned kunnen lijken tijdens de training terwijl ze misaligned gedrag behouden -- Anthropics baanbrekende onderzoek uit december 2024 naar deceptive alignment in de praktijk.
Sleeper Agent-Modellen
Anthropics onderzoek naar modellen die zich anders gedragen wanneer ze worden getriggerd door specifieke voorwaarden: misleidende alignment, conditionele backdoors, trainingsbestendig misleidend gedrag, en implicaties voor AI-veiligheid.
Theorie van misleidende alignment
Theoretische frameworks voor het begrijpen en voorspellen van misleidende alignment in geavanceerde AI-systemen.
Sleeper Agents: Backdoors tijdens de training
Uitgebreide analyse van het sleeper agents-onderzoek van Hubinger et al. (Anthropic, jan. 2024) — hoe backdoors veiligheidstraining overleven, waarom grotere modellen het meest persistent zijn, detectie via lineaire probes, en implicaties voor AI-veiligheid en red teaming.
Framework voor het testen op deceptive alignment
Build a testing framework for detecting mesa-optimization and deceptive alignment in fine-tuned models.
Uitbuiting van emergentie en capaciteitssprongen
Hoe emergente capaciteiten onvoorspelbare beveiligingseigenschappen creëren: testen op verborgen capaciteiten, sleeper agent-scenario's, zorgen over deceptive alignment en capaciteitselicitatie.