Alignment faking in grote taalmodellen
Hoe frontier-AI-modellen strategisch aligned kunnen lijken tijdens de training terwijl ze misaligned gedrag behouden -- Anthropics baanbrekende onderzoek uit december 2024 naar deceptive alignment in de praktijk.
alignment-fakingdeceptive-alignmentai-safetytraining-gaminganthropic-research