Aanvallen op verifiers & beloningsmodellen
Het aanvallen van procesbeloningsmodellen, uitkomstbeloningsmodellen en verificatiesystemen die in redeneermodellen worden gebruikt: reward hacking, verifier-generator-kloven, en het manipuleren van verificatiestappen.
verifierreward-modelattacksrlhf