Uitdagingen van schaalbaar toezicht
Hoe toezicht afbrokkelt naarmate AI-systemen capabeler worden: het probleem van schaalbaar toezicht, recursive reward modeling, debat, market-making en implicaties voor het red teamen van steeds capabelere modellen.
scalable-oversightalignmentdebatereward-modelingcapability-gap