# training-gaming

1 artikelgetagd met “training-gaming”

Alignment faking in grote taalmodellen

Hoe frontier-AI-modellen strategisch aligned kunnen lijken tijdens de training terwijl ze misaligned gedrag behouden -- Anthropics baanbrekende onderzoek uit december 2024 naar deceptive alignment in de praktijk.

alignment-fakingdeceptive-alignmentai-safetytraining-gaminganthropic-research

Gevorderd