Reward Hacking & Gaming
Wanneer modellen reward-signalen misbruiken in plaats van de intentie te volgen, waaronder specification gaming, de wet van Goodhart in RLHF, productievoorbeelden en implicaties voor red teaming.
reward-hackingspecification-gamingGoodharts-lawRLHFreward-modeloptimization