# Goodharts-law

1 artikelgetagd met “Goodharts-law”

Reward Hacking & Gaming

Wanneer modellen reward-signalen misbruiken in plaats van de intentie te volgen, waaronder specification gaming, de wet van Goodhart in RLHF, productievoorbeelden en implicaties voor red teaming.

reward-hackingspecification-gamingGoodharts-lawRLHFreward-modeloptimization

Expert