Autonome goal drift
Hoe autonome AI-agents afdrijven van hun beoogde doelen via reward hacking, specification gaming, het omzeilen van veiligheidssystemen en cascade-effecten in multi-agent-systemen.
agentsgoal-driftalignmentautonomouscascading-failuressafety