# reward-modeling

1 artikelgetagd met “reward-modeling”

Uitdagingen van schaalbaar toezicht

Hoe toezicht afbrokkelt naarmate AI-systemen capabeler worden: het probleem van schaalbaar toezicht, recursive reward modeling, debat, market-making en implicaties voor het red teamen van steeds capabelere modellen.

scalable-oversightalignmentdebatereward-modelingcapability-gap

Gevorderd