# reward-modeling

1 articletagged with “reward-modeling”

Scalable Oversight Challenges

How oversight breaks down as AI systems become more capable: the scalable oversight problem, recursive reward modeling, debate, market-making, and implications for red teaming increasingly capable models.

scalable-oversightalignmentdebatereward-modelingcapability-gap

Advanced